爬取动态网页的数据推荐用什么模块 selenium求大哥指点
用selenium爬了一天的今天头条 什么也没爬出来{:5_90:} wcq15759797758 发表于 2021-6-21 13:17https://www.toutiao.com/ch/news_tech 爬取里面的标题我用了find_elements_by_xpath
不一定非要用selenium的
你试试这个代码看看能不能拿到数据
import requests
url='https://www.toutiao.com/api/pc/feed/?'
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}
params={
'min_behot_time': '0',
'refresh_count': '1',
'category': 'news_tech',
'utm_source': 'toutiao',
'widen': '1',
'tadrequire': 'true',
'_signature': '_02B4Z6wo00d01eDWtRwAAIDCJl-taOBJ2t3g8rGAABjn6cxBkgtLHOzFJDtYU3VcM3cwz7YTApRXybmmU.YUUyEYXOEM4BNeozIGE.z4PkW17XPWjlbWGm5GC315aHiR6t3KAXnWcmprpg2.f1'
}
res=requests.get(url=url,headers=headers,params=params)
print(res.json()) 网址拿来 本帖最后由 wcq15759797758 于 2021-6-21 13:24 编辑
wp231957 发表于 2021-6-21 12:54
网址拿来
https://www.toutiao.com/ch/news_tech 爬取里面的标题我用了find_elements_by_xpath selenium 大法好{:5_106:} wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码看看能不能拿到数据
谢谢大佬指点! nahongyan1997 发表于 2021-6-21 15:56
selenium 大法好
我还在学selenium
{:10_254:} wcq15759797758 发表于 2021-6-23 16:00
我还在学selenium
selenium有个弱点就是慢啊 所以 她是最后的选项永远排在最后 wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码看看能不能拿到数据
大佬你这个url怎么分析出来的还有参数我没找到{:10_291:} 本帖最后由 wp231957 于 2021-6-23 16:13 编辑
wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的还有参数我没找到
开F12或右键检查 (最好是谷歌浏览器 火狐也可以360极速模式也可以)
定位到NETWORK选项卡 然后刷新数据 着重看XHR 选项卡然后就慢慢看吧有的xhr 很多但不都是你所关心的 如果xhr 什么都 没有 恭喜你,这是一个静态网页 很easy了 wp231957 发表于 2021-6-23 16:11
开F12或右键检查 (最好是谷歌浏览器 火狐也可以360极速模式也可以)
定位到NETWORK选项卡 ...
找到了! 谢谢大佬! wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的还有参数我没找到
进: wp231957 发表于 2021-6-23 16:11
开F12或右键检查 (最好是谷歌浏览器 火狐也可以360极速模式也可以)
定位到NETWORK选项卡 ...
大佬如果用requests 那怎么样才可以下滑 这样取得话 只能取到一开始的信息 wcq15759797758 发表于 2021-6-23 16:20
大佬如果用requests 那怎么样才可以下滑 这样取得话 只能取到一开始的信息
这个就得慢慢分析了,搞不好和那个很长很长的sign 有关典型的ajax wp231957 发表于 2021-6-23 16:25
这个就得慢慢分析了,搞不好和那个很长很长的sign 有关典型的ajax
谢谢大哥的分析!
页:
[1]