鱼C论坛

 找回密码
 立即注册
查看: 369|回复: 19

求帮忙爬虫自贸区官方文档的相关

[复制链接]
发表于 2022-9-10 09:59:51 | 显示全部楼层 |阅读模式
60鱼币
能不能帮忙把23个自贸区的政策法规爬下来,每个文件的文档都存下来,然后各个自贸区再列一个excel的清单,发布时间、名称、网址,谢谢。可以把代码发给我,我自己下载也行,谢谢

1662774783426.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-10 10:10:27 | 显示全部楼层
这种事情去找专门接单的吧,花个小钱办大事
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-14 14:55:30 | 显示全部楼层
顶一下,有没有人呢,帮帮忙啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-14 15:30:38 | 显示全部楼层
各位小哥哥小姐姐快来帮帮忙
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-15 09:16:38 | 显示全部楼层
ZhKQYu 发表于 2022-9-10 10:10
这种事情去找专门接单的吧,花个小钱办大事

这个很难的吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-15 09:51:45 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-15 15:40:02 | 显示全部楼层

能不能帮帮忙
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-15 15:42:37 | 显示全部楼层
ZhKQYu 发表于 2022-9-10 10:10
这种事情去找专门接单的吧,花个小钱办大事

学生党没有钱啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-15 18:42:54 | 显示全部楼层
清筠 发表于 2022-9-15 15:42
学生党没有钱啊

花不了多少钱的,200块就能搞定,这上面是解决小白的问题的,不是做慈善的接单的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-16 09:40:09 | 显示全部楼层
ZhKQYu 发表于 2022-9-15 18:42
花不了多少钱的,200块就能搞定,这上面是解决小白的问题的,不是做慈善的接单的

那你接这种活吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-16 10:42:02 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-16 13:56:35 | 显示全部楼层

那要找人做的话怎么找呢,去哪找呢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-16 17:32:27 | 显示全部楼层
秋刀鱼不爱吃鱼 发表于 2022-9-16 13:56
那要找人做的话怎么找呢,去哪找呢

闲鱼淘宝都行啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-17 10:51:58 | 显示全部楼层
也没有网址啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-19 19:27:23 | 显示全部楼层

有呀有呀,http://zmqgs.mofcom.gov.cn/
这个网址的左边就是各个自贸区的网址
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-19 20:14:53 | 显示全部楼层

也可以写一个网站的代码,剩下的我可以学着改改,拜托拜托
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-19 22:08:08 | 显示全部楼层
清筠 发表于 2022-9-19 20:14
也可以写一个网站的代码,剩下的我可以学着改改,拜托拜托

爬取搜狗首页
  1. import requests

  2. a1 = 'https://www.sogou.com'
  3. a4 = {
  4.     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  5.     }
  6. a2 = requests.get(a1)
  7. a3 = a2.text
  8. print(a3)
  9. with open('./sogou.html','w',encoding='utf-8') as fp:
  10.     fp.write(a3)
  11. print('爬取数据完毕!!!')
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
发表于 2022-9-19 22:09:42 | 显示全部楼层
爬取妹子图片并保存
  1. import requests
  2. import re
  3. import os
  4. import time

  5. 标签 = {
  6.     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Core/1.94.175.400 QQBrowser/11.1.5155.400'
  7.     }
  8. 页数 = 23
  9. 符号 = '?User-Agent=Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F94.0.4606.71+Safari%2F537.36+Core%2F1.94.175.400+QQBrowser%2F11.1.5155.400'
  10. while 页数 <= 100:
  11.     页数 = str(页数)
  12.     下一页 = 'https://www.vmgirls.com/fresh/page/'+ 页数
  13.     页数 = int(页数)
  14.     页数 = 页数 + 1
  15.     print(页数)
  16.     一级链接 = requests.get(下一页,标签)
  17.     time.sleep(1)
  18.     一级链接 = 一级链接.text
  19.     二级链接 = re.findall('<a href="(.*?)" title=".*?" class=".*?" >',一级链接)
  20.     for 三级链接 in 二级链接:
  21.         time.sleep(2)
  22.         三级链接 = requests.get(三级链接,标签)
  23.         三级链接 = 三级链接.text
  24.         图片链接 = re.findall('<a rel=".*?" href="(.*?)" alt=".*?" title=".*?">',三级链接)
  25.         文件夹名称 = re.findall('<h1 class="post-title mb-3">(.*?)</h1>',三级链接)[-1]
  26.         if not os.path.exists (文件夹名称):
  27.             os.mkdir(文件夹名称)
  28.         
  29.         for 下载链接 in 图片链接:
  30.             time.sleep(2)
  31.             图片名称 = 下载链接.split('/')[-1]
  32.             下载链接 = requests.get(下载链接,标签)
  33.             with open (文件夹名称 + '/' + 图片名称,'wb') as f :
  34.                 f.write(下载链接.content)
  35.         
  36. print('爬取完成')
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-21 11:19:48 | 显示全部楼层
简单滴滴 发表于 2022-9-19 22:09
爬取妹子图片并保存

不是这个啊,是自贸区的网站的相关信息啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
 楼主| 发表于 2022-9-21 11:20:23 | 显示全部楼层
简单滴滴 发表于 2022-9-19 22:09
爬取妹子图片并保存

我的意思是写一个自贸区网站的代码,我改成其他网站的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1

GMT+8, 2022-10-3 07:07

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表