爬取动态网页的数据推荐用什么模块 selenium求大哥指点,Python交流,编程语言专区,鱼C论坛

wcq15759797758 发表于 2021-6-21 12:40:44

爬取动态网页的数据推荐用什么模块 selenium求大哥指点

用selenium爬了一天的今天头条什么也没爬出来{:5_90:}

wp231957 发表于 2021-6-21 12:40:45

wcq15759797758 发表于 2021-6-21 13:17
https://www.toutiao.com/ch/news_tech 爬取里面的标题我用了find_elements_by_xpath

不一定非要用selenium的
你试试这个代码看看能不能拿到数据

import requests

url='https://www.toutiao.com/api/pc/feed/?'

headers={
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}
params={
'min_behot_time': '0',
'refresh_count': '1',
'category': 'news_tech',
'utm_source': 'toutiao',
'widen': '1',
'tadrequire': 'true',
'_signature': '_02B4Z6wo00d01eDWtRwAAIDCJl-taOBJ2t3g8rGAABjn6cxBkgtLHOzFJDtYU3VcM3cwz7YTApRXybmmU.YUUyEYXOEM4BNeozIGE.z4PkW17XPWjlbWGm5GC315aHiR6t3KAXnWcmprpg2.f1'
}

res=requests.get(url=url,headers=headers,params=params)
print(res.json())

wp231957 发表于 2021-6-21 12:54:58

网址拿来

wcq15759797758 发表于 2021-6-21 13:17:45

本帖最后由 wcq15759797758 于 2021-6-21 13:24 编辑

wp231957 发表于 2021-6-21 12:54
网址拿来

https://www.toutiao.com/ch/news_tech 爬取里面的标题我用了find_elements_by_xpath

nahongyan1997 发表于 2021-6-21 15:56:02

selenium 大法好{:5_106:}

wcq15759797758 发表于 2021-6-23 15:59:31

wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码看看能不能拿到数据

谢谢大佬指点！

wcq15759797758 发表于 2021-6-23 16:00:05

nahongyan1997 发表于 2021-6-21 15:56
selenium 大法好

我还在学selenium
{:10_254:}

wp231957 发表于 2021-6-23 16:08:49

wcq15759797758 发表于 2021-6-23 16:00
我还在学selenium

selenium有个弱点就是慢啊所以她是最后的选项永远排在最后

wcq15759797758 发表于 2021-6-23 16:08:59

wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码看看能不能拿到数据

大佬你这个url怎么分析出来的还有参数我没找到{:10_291:}

wp231957 发表于 2021-6-23 16:11:38

本帖最后由 wp231957 于 2021-6-23 16:13 编辑

wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的还有参数我没找到

开F12或右键检查（最好是谷歌浏览器火狐也可以360极速模式也可以）
定位到NETWORK选项卡然后刷新数据着重看XHR 选项卡然后就慢慢看吧有的xhr 很多但不都是你所关心的如果xhr 什么都没有恭喜你，这是一个静态网页很easy了

wcq15759797758 发表于 2021-6-23 16:16:59

wp231957 发表于 2021-6-23 16:11
开F12或右键检查（最好是谷歌浏览器火狐也可以360极速模式也可以）
定位到NETWORK选项卡 ...

找到了！谢谢大佬！

wp231957 发表于 2021-6-23 16:20:25

wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的还有参数我没找到

进：

wcq15759797758 发表于 2021-6-23 16:20:42

wp231957 发表于 2021-6-23 16:11
开F12或右键检查（最好是谷歌浏览器火狐也可以360极速模式也可以）
定位到NETWORK选项卡 ...

大佬如果用requests 那怎么样才可以下滑这样取得话只能取到一开始的信息

wp231957 发表于 2021-6-23 16:25:18

wcq15759797758 发表于 2021-6-23 16:20
大佬如果用requests 那怎么样才可以下滑这样取得话只能取到一开始的信息

这个就得慢慢分析了，搞不好和那个很长很长的sign 有关典型的ajax

wcq15759797758 发表于 2021-6-23 16:26:20

wp231957 发表于 2021-6-23 16:25
这个就得慢慢分析了，搞不好和那个很长很长的sign 有关典型的ajax

谢谢大哥的分析！

页: [1]

鱼C论坛's Archiver

爬取动态网页的数据推荐用什么模块 selenium求大哥指点