鱼C论坛

 找回密码
 立即注册
查看: 871|回复: 9

[已解决]检查元素和源代码不一样怎么办?

[复制链接]
发表于 2020-3-24 21:41:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
想爬取头条的图片,但是爬下网站内容是源代码类型的(下图),与检查元素不一样怎么办?
import requests
from urllib.parse import urlencode
headers = {'Accept': 'text/html, application/xhtml+xml, image/jxr, */*',
               'Accept - Encoding':'gzip, deflate',
               'Accept-Language':'zh-Hans-CN, zh-Hans; q=0.5',
               'Connection':'Keep-Alive',
               'Host':'zhannei.baidu.com',
               'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'}
data = {
'first': 'false',
'pn': 4,
'sortField': 0,
'havemark': 0,
'showId': '0d385fa235654d4d9f15d23e322e65ef'
    }
url = "https://www.lagou.com/gongsi/3-0-0-1.json" + urlencode(data)
response = requests.get(url,headers = headers,allow_redirects = False)
print(response.text)
这是为什么,有什么解决办法吗?
最佳答案
2020-3-25 09:49:19
Chysial 发表于 2020-3-25 08:46
你要告诉我为啥不一样因为js还是啥的原因 你这只有一句话 我非计算机专业的很难理解啊

js动态加载,换句话说,网页内容是被js模块直接写上去的(通常所说的js渲染),是没办法静态爬取的

想要这样类型

想要这样类型

但是爬取出来是这样的

但是爬取出来是这样的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-24 21:45:52 | 显示全部楼层
用selenium可以,我感觉beautifulsoup应该也可以,为啥requests和urllib不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-24 21:54:27 | 显示全部楼层
因为检查元素和源代码不一样。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-25 08:46:39 | 显示全部楼层
°蓝鲤歌蓝 发表于 2020-3-24 21:54
因为检查元素和源代码不一样。

你要告诉我为啥不一样因为js还是啥的原因 你这只有一句话 我非计算机专业的很难理解啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-25 09:49:19 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
Chysial 发表于 2020-3-25 08:46
你要告诉我为啥不一样因为js还是啥的原因 你这只有一句话 我非计算机专业的很难理解啊

js动态加载,换句话说,网页内容是被js模块直接写上去的(通常所说的js渲染),是没办法静态爬取的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-25 15:23:45 | 显示全部楼层
wp231957 发表于 2020-3-25 09:49
js动态加载,换句话说,网页内容是被js模块直接写上去的(通常所说的js渲染),是没办法静态爬取的

是不是只能用selenium抓取,无法用别的了?我用过beautifulsoup requests pyquery urllib都不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-25 17:10:18 From FishC Mobile | 显示全部楼层
Chysial 发表于 2020-3-25 15:23
是不是只能用selenium抓取,无法用别的了?我用过beautifulsoup requests pyquery urllib都不行

差不多吧,你后面说的那些工具都是静态爬取用的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-25 17:23:56 | 显示全部楼层
wp231957 发表于 2020-3-25 17:10
差不多吧,你后面说的那些工具都是静态爬取用的

所有的动态爬取都是需要模拟操作吗,有没有更好的,不需要在自己电脑上显示出来的,在后台自动运行的模块
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-25 17:29:07 From FishC Mobile | 显示全部楼层
Chysial 发表于 2020-3-25 17:23
所有的动态爬取都是需要模拟操作吗,有没有更好的,不需要在自己电脑上显示出来的,在后台自动运行的模块

python目前没有,以后也够呛
就是NODE.JS本身就是解析js的,它都无法实现,它也需要借助无头浏览器
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-25 17:33:41 | 显示全部楼层
wp231957 发表于 2020-3-25 17:29
python目前没有,以后也够呛
就是NODE.JS本身就是解析js的,它都无法实现,它也需要借助无头浏览器

thanks
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-25 10:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表