|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
想爬取头条的图片,但是爬下网站内容是源代码类型的(下图),与检查元素不一样怎么办?
- import requests
- from urllib.parse import urlencode
- headers = {'Accept': 'text/html, application/xhtml+xml, image/jxr, */*',
- 'Accept - Encoding':'gzip, deflate',
- 'Accept-Language':'zh-Hans-CN, zh-Hans; q=0.5',
- 'Connection':'Keep-Alive',
- 'Host':'zhannei.baidu.com',
- 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'}
- data = {
- 'first': 'false',
- 'pn': 4,
- 'sortField': 0,
- 'havemark': 0,
- 'showId': '0d385fa235654d4d9f15d23e322e65ef'
- }
- url = "https://www.lagou.com/gongsi/3-0-0-1.json" + urlencode(data)
- response = requests.get(url,headers = headers,allow_redirects = False)
- print(response.text)
复制代码
这是为什么,有什么解决办法吗?
Chysial 发表于 2020-3-25 08:46
你要告诉我为啥不一样因为js还是啥的原因 你这只有一句话 我非计算机专业的很难理解啊
js动态加载,换句话说,网页内容是被js模块直接写上去的(通常所说的js渲染),是没办法静态爬取的
|
-
想要这样类型
-
但是爬取出来是这样的
|