鱼C论坛

 找回密码
 立即注册
查看: 2728|回复: 13

[已解决]python爬虫

[复制链接]
发表于 2021-6-17 14:15:11 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
为什么爬虫爬到的数据和在F12中看到的不一样,怎么解决啊
最佳答案
2021-6-17 23:40:17
这个不难的

其实数据都在里面的,只是名称被加密了,所以你可能没有看到

从原网页随意找一个数据,比如密歇根州,复制密歇根州的某个数据,新增或者死亡啥的,去你爬取到的结果里面搜索,会获得如下数据 (请保证爬取的数据为最新数据,即爬取的数据和网站的相同,网站上的数据没有进行更新):

截屏2021-06-17 23.37.15.png

将 city 名称放到 Unicode 转 中文 的网站进行转码,不难发现,这个就是密歇根州的 Unicode 码

1623944090757.jpg
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-17 14:25:29 From FishC Mobile | 显示全部楼层
狠正常的事啊,具体网站具体分析
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 16:12:38 | 显示全部楼层


可能是 JS 加载,所以不一样

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 16:20:24 | 显示全部楼层
浏览器的是经过js和css渲染的,和爬虫get的不一样很正常。
具体问题具体分析,把你想爬的内容写清楚,代码发出来。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 16:57:38 | 显示全部楼层
可以把网站发出来吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 18:13:33 | 显示全部楼层
可能是:

1.网页经过JS渲染,可通过右键单击 >> 查看网页源代码确认

2.Python发出去的请求被屏蔽

解决方法:

1.F12后打开Network查找XHR文件,获取数据

2.在代码里加入headers
具体方法:
F12  >> 点击Network >> F5 >> 点击对应的网页文档 >>  找到Requests Headers 里面的对应信息users-agentreferer(可选)) >> 复制 >> 在代码里加:
headers = {"...":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36",
"referer":"..."}

... 替换成网页里的数据
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-6-17 19:52:12 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-6-17 19:53:08 | 显示全部楼层
Mr_W 发表于 2021-6-17 16:57
可以把网站发出来吗

想要提取美国每个州的新冠的感染人数
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-6-17 19:53:42 | 显示全部楼层
Mr_W 发表于 2021-6-17 16:57
可以把网站发出来吗

有这个的教程视频吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 20:47:51 | 显示全部楼层
xiaoxia0 发表于 2021-6-17 19:53
有这个的教程视频吗

关于这个倒没有,但是可以学习一下小甲鱼的爬虫教程

可以把教程内容迁移过来的

个人建议用requests+BeautifulSoup这个模块组合抓取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 23:40:17 | 显示全部楼层    本楼为最佳答案   
这个不难的

其实数据都在里面的,只是名称被加密了,所以你可能没有看到

从原网页随意找一个数据,比如密歇根州,复制密歇根州的某个数据,新增或者死亡啥的,去你爬取到的结果里面搜索,会获得如下数据 (请保证爬取的数据为最新数据,即爬取的数据和网站的相同,网站上的数据没有进行更新):

截屏2021-06-17 23.37.15.png

将 city 名称放到 Unicode 转 中文 的网站进行转码,不难发现,这个就是密歇根州的 Unicode 码

1623944090757.jpg
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 23:43:05 | 显示全部楼层
本帖最后由 Daniel_Zhang 于 2021-6-18 00:37 编辑
Daniel_Zhang 发表于 2021-6-17 23:40
这个不难的

其实数据都在里面的,只是名称被加密了,所以你可能没有看到


以下是我爬取用的代码,你可以自行研究一下:

上面的图示因为数据的时效性,可能会和代码运行结果有所出入,请以实际运行结果为准

代码中的 ssl 部分可以忽略甚至删除(3 和 11 行),我加入的原因是我的电脑缺少这两行会报错,暂时没有发现其他人的电脑会有类似问题
import requests
import ssl


headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
    'Accept': 'text/html'
}

ssl._create_default_https_context = ssl._create_unverified_context


def open_url(url):
    # encoding: utf-8
    html = requests.get(url, stream=True, headers=headers).text
    with open('trash7.txt', 'w') as write_f:
        write_f.write(html)
    # return html


if __name__ == '__main__':
    open_url('https://voice.baidu.com/act/newpneumonia/newpneumonia/?city=%E7%BE%8E%E5%9B%BD-%E7%BE%8E%E5%9B%BD#tab1')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 23:47:44 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-6-17 23:52:45 | 显示全部楼层
他网页源代码里面的东西只是一个框架,还要经过各种脚本的二次加载所以不一样很正常
用抓包工具抓到的一定就是一样的了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-21 09:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表