检查元素和源代码不一样怎么办？,Python交流,编程语言专区,鱼C论坛

Chysial 发表于 2020-3-24 21:41:04

检查元素和源代码不一样怎么办？

想爬取头条的图片，但是爬下网站内容是源代码类型的（下图），与检查元素不一样怎么办？
import requests
from urllib.parse import urlencode
headers = {'Accept': 'text/html, application/xhtml+xml, image/jxr, */*',
            'Accept - Encoding':'gzip, deflate',
            'Accept-Language':'zh-Hans-CN, zh-Hans; q=0.5',
            'Connection':'Keep-Alive',
            'Host':'zhannei.baidu.com',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'}
data = {
'first': 'false',
'pn': 4,
'sortField': 0,
'havemark': 0,
'showId': '0d385fa235654d4d9f15d23e322e65ef'
}
url = "https://www.lagou.com/gongsi/3-0-0-1.json" + urlencode(data)
response = requests.get(url,headers = headers,allow_redirects = False)
print(response.text)
这是为什么，有什么解决办法吗？

Chysial 发表于 2020-3-24 21:45:52

{:5_104:}用selenium可以，我感觉beautifulsoup应该也可以，为啥requests和urllib不行

°蓝鲤歌蓝 发表于 2020-3-24 21:54:27

因为检查元素和源代码不一样。

Chysial 发表于 2020-3-25 08:46:39

°蓝鲤歌蓝发表于 2020-3-24 21:54
因为检查元素和源代码不一样。

你要告诉我为啥不一样因为js还是啥的原因你这只有一句话我非计算机专业的很难理解啊

wp231957 发表于 2020-3-25 09:49:19

Chysial 发表于 2020-3-25 08:46
你要告诉我为啥不一样因为js还是啥的原因你这只有一句话我非计算机专业的很难理解啊

js动态加载，换句话说，网页内容是被js模块直接写上去的(通常所说的js渲染)，是没办法静态爬取的

Chysial 发表于 2020-3-25 15:23:45

wp231957 发表于 2020-3-25 09:49
js动态加载，换句话说，网页内容是被js模块直接写上去的(通常所说的js渲染)，是没办法静态爬取的

是不是只能用selenium抓取，无法用别的了？我用过beautifulsoup requests pyquery urllib都不行

wp231957 发表于 2020-3-25 17:10:18

Chysial 发表于 2020-3-25 15:23
是不是只能用selenium抓取，无法用别的了？我用过beautifulsoup requests pyquery urllib都不行

差不多吧，你后面说的那些工具都是静态爬取用的

Chysial 发表于 2020-3-25 17:23:56

wp231957 发表于 2020-3-25 17:10
差不多吧，你后面说的那些工具都是静态爬取用的

所有的动态爬取都是需要模拟操作吗，有没有更好的，不需要在自己电脑上显示出来的，在后台自动运行的模块

wp231957 发表于 2020-3-25 17:29:07

Chysial 发表于 2020-3-25 17:23
所有的动态爬取都是需要模拟操作吗，有没有更好的，不需要在自己电脑上显示出来的，在后台自动运行的模块

python目前没有，以后也够呛
就是NODE.JS本身就是解析js的，它都无法实现，它也需要借助无头浏览器

Chysial 发表于 2020-3-25 17:33:41

wp231957 发表于 2020-3-25 17:29
python目前没有，以后也够呛
就是NODE.JS本身就是解析js的，它都无法实现，它也需要借助无头浏览器

{:5_91:}thanks

页: [1]

鱼C论坛's Archiver

检查元素和源代码不一样怎么办？