求帮忙爬虫自贸区官方文档的相关,Python交流,编程语言专区,鱼C论坛

清筠发表于 2022-9-10 09:59:51

求帮忙爬虫自贸区官方文档的相关

能不能帮忙把23个自贸区的政策法规爬下来，每个文件的文档都存下来，然后各个自贸区再列一个excel的清单，发布时间、名称、网址，谢谢。可以把代码发给我，我自己下载也行，谢谢

ZhKQYu 发表于 2022-9-10 10:10:27

这种事情去找专门接单的吧，花个小钱办大事

清筠发表于 2022-9-14 14:55:30

顶一下，有没有人呢，帮帮忙啦

清筠发表于 2022-9-14 15:30:38

各位小哥哥小姐姐快来帮帮忙{:10_266:}

秋刀鱼不爱吃鱼 发表于 2022-9-15 09:16:38

ZhKQYu 发表于 2022-9-10 10:10
这种事情去找专门接单的吧，花个小钱办大事

这个很难的吗

ZhKQYu 发表于 2022-9-15 09:51:45

秋刀鱼不爱吃鱼发表于 2022-9-15 09:16
这个很难的吗

不难

清筠发表于 2022-9-15 15:40:02

秋刀鱼不爱吃鱼发表于 2022-9-15 09:16
这个很难的吗

能不能帮帮忙{:10_250:}

清筠发表于 2022-9-15 15:42:37

ZhKQYu 发表于 2022-9-10 10:10
这种事情去找专门接单的吧，花个小钱办大事

学生党没有钱啊

ZhKQYu 发表于 2022-9-15 18:42:54

清筠发表于 2022-9-15 15:42
学生党没有钱啊

花不了多少钱的，200块就能搞定，这上面是解决小白的问题的，不是做慈善的接单的

秋刀鱼不爱吃鱼 发表于 2022-9-16 09:40:09

ZhKQYu 发表于 2022-9-15 18:42
花不了多少钱的，200块就能搞定，这上面是解决小白的问题的，不是做慈善的接单的

那你接这种活吗

ZhKQYu 发表于 2022-9-16 10:42:02

秋刀鱼不爱吃鱼发表于 2022-9-16 09:40
那你接这种活吗

不接

秋刀鱼不爱吃鱼 发表于 2022-9-16 13:56:35

ZhKQYu 发表于 2022-9-16 10:42
不接

那要找人做的话怎么找呢，去哪找呢

ZhKQYu 发表于 2022-9-16 17:32:27

秋刀鱼不爱吃鱼发表于 2022-9-16 13:56
那要找人做的话怎么找呢，去哪找呢

闲鱼淘宝都行啊

简单滴滴 发表于 2022-9-17 10:51:58

也没有网址啊

清筠发表于 2022-9-19 19:27:23

简单滴滴发表于 2022-9-17 10:51
也没有网址啊

有呀有呀，http://zmqgs.mofcom.gov.cn/
这个网址的左边就是各个自贸区的网址

清筠发表于 2022-9-19 20:14:53

简单滴滴发表于 2022-9-17 10:51
也没有网址啊

也可以写一个网站的代码，剩下的我可以学着改改，拜托拜托

简单滴滴 发表于 2022-9-19 22:08:08

清筠发表于 2022-9-19 20:14
也可以写一个网站的代码，剩下的我可以学着改改，拜托拜托

爬取搜狗首页
import requests

a1 = 'https://www.sogou.com'
a4 = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}
a2 = requests.get(a1)
a3 = a2.text
print(a3)
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write(a3)
print('爬取数据完毕！！！')

简单滴滴 发表于 2022-9-19 22:09:42

爬取妹子图片并保存
import requests
import re
import os
import time

标签 = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Core/1.94.175.400 QQBrowser/11.1.5155.400'
}
页数 = 23
符号 = '?User-Agent=Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F94.0.4606.71+Safari%2F537.36+Core%2F1.94.175.400+QQBrowser%2F11.1.5155.400'
while 页数 <= 100:
页数 = str(页数)
下一页 = 'https://www.vmgirls.com/fresh/page/'+ 页数
页数 = int(页数)
页数 = 页数 + 1
print(页数)
一级链接 = requests.get(下一页,标签)
time.sleep(1)
一级链接 = 一级链接.text
二级链接 = re.findall('<a href="(.*?)" title=".*?" class=".*?" >',一级链接)
for 三级链接 in 二级链接:
   time.sleep(2)
   三级链接 = requests.get(三级链接,标签)
   三级链接 = 三级链接.text
   图片链接 = re.findall('<a rel=".*?" href="(.*?)" alt=".*?" title=".*?">',三级链接)
   文件夹名称 = re.findall('<h1 class="post-title mb-3">(.*?)</h1>',三级链接)[-1]
   if not os.path.exists (文件夹名称):
         os.mkdir(文件夹名称)

   for 下载链接 in 图片链接:
         time.sleep(2)
         图片名称 = 下载链接.split('/')[-1]
         下载链接 = requests.get(下载链接,标签)
         with open (文件夹名称 + '/' + 图片名称,'wb') as f :
            f.write(下载链接.content)

print('爬取完成')

清筠发表于 2022-9-21 11:19:48

简单滴滴发表于 2022-9-19 22:09
爬取妹子图片并保存

不是这个啊，是自贸区的网站的相关信息啊

清筠发表于 2022-9-21 11:20:23

简单滴滴发表于 2022-9-19 22:09
爬取妹子图片并保存

我的意思是写一个自贸区网站的代码，我改成其他网站的

页: [1]

鱼C论坛's Archiver

求帮忙爬虫自贸区官方文档的相关