wcq15759797758 发表于 2021-6-21 12:40:44

爬取动态网页的数据推荐用什么模块 selenium求大哥指点

用selenium爬了一天的今天头条 什么也没爬出来{:5_90:}

wp231957 发表于 2021-6-21 12:40:45

wcq15759797758 发表于 2021-6-21 13:17
https://www.toutiao.com/ch/news_tech    爬取里面的标题我用了find_elements_by_xpath

不一定非要用selenium的
你试试这个代码看看能不能拿到数据

import requests

url='https://www.toutiao.com/api/pc/feed/?'

headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}
params={
    'min_behot_time': '0',
    'refresh_count': '1',
    'category': 'news_tech',
    'utm_source': 'toutiao',
    'widen': '1',
    'tadrequire': 'true',
    '_signature': '_02B4Z6wo00d01eDWtRwAAIDCJl-taOBJ2t3g8rGAABjn6cxBkgtLHOzFJDtYU3VcM3cwz7YTApRXybmmU.YUUyEYXOEM4BNeozIGE.z4PkW17XPWjlbWGm5GC315aHiR6t3KAXnWcmprpg2.f1'
}

res=requests.get(url=url,headers=headers,params=params)
print(res.json())

wp231957 发表于 2021-6-21 12:54:58

网址拿来

wcq15759797758 发表于 2021-6-21 13:17:45

本帖最后由 wcq15759797758 于 2021-6-21 13:24 编辑

wp231957 发表于 2021-6-21 12:54
网址拿来

https://www.toutiao.com/ch/news_tech    爬取里面的标题我用了find_elements_by_xpath

nahongyan1997 发表于 2021-6-21 15:56:02

selenium 大法好{:5_106:}

wcq15759797758 发表于 2021-6-23 15:59:31

wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码看看能不能拿到数据

谢谢大佬指点!

wcq15759797758 发表于 2021-6-23 16:00:05

nahongyan1997 发表于 2021-6-21 15:56
selenium 大法好

我还在学selenium
{:10_254:}

wp231957 发表于 2021-6-23 16:08:49

wcq15759797758 发表于 2021-6-23 16:00
我还在学selenium

selenium有个弱点就是慢啊   所以 她是最后的选项永远排在最后

wcq15759797758 发表于 2021-6-23 16:08:59

wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码看看能不能拿到数据

大佬你这个url怎么分析出来的还有参数我没找到{:10_291:}

wp231957 发表于 2021-6-23 16:11:38

本帖最后由 wp231957 于 2021-6-23 16:13 编辑

wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的还有参数我没找到

开F12或右键检查   (最好是谷歌浏览器 火狐也可以360极速模式也可以)
定位到NETWORK选项卡   然后刷新数据   着重看XHR 选项卡然后就慢慢看吧有的xhr 很多但不都是你所关心的   如果xhr 什么都 没有   恭喜你,这是一个静态网页   很easy了

wcq15759797758 发表于 2021-6-23 16:16:59

wp231957 发表于 2021-6-23 16:11
开F12或右键检查   (最好是谷歌浏览器 火狐也可以360极速模式也可以)
定位到NETWORK选项卡    ...

找到了! 谢谢大佬!

wp231957 发表于 2021-6-23 16:20:25

wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的还有参数我没找到

进:

wcq15759797758 发表于 2021-6-23 16:20:42

wp231957 发表于 2021-6-23 16:11
开F12或右键检查   (最好是谷歌浏览器 火狐也可以360极速模式也可以)
定位到NETWORK选项卡    ...

大佬如果用requests 那怎么样才可以下滑 这样取得话 只能取到一开始的信息

wp231957 发表于 2021-6-23 16:25:18

wcq15759797758 发表于 2021-6-23 16:20
大佬如果用requests 那怎么样才可以下滑 这样取得话 只能取到一开始的信息

这个就得慢慢分析了,搞不好和那个很长很长的sign 有关典型的ajax

wcq15759797758 发表于 2021-6-23 16:26:20

wp231957 发表于 2021-6-23 16:25
这个就得慢慢分析了,搞不好和那个很长很长的sign 有关典型的ajax

谢谢大哥的分析!
页: [1]
查看完整版本: 爬取动态网页的数据推荐用什么模块 selenium求大哥指点