鱼C论坛

 找回密码
 立即注册
查看: 2123|回复: 14

[已解决]爬取动态网页的数据推荐用什么模块 selenium求大哥指点

[复制链接]
发表于 2021-6-21 12:40:44 | 显示全部楼层 |阅读模式
20鱼币
用selenium爬了一天的今天头条 什么也没爬出来
最佳答案
2021-6-21 12:40:45
wcq15759797758 发表于 2021-6-21 13:17
https://www.toutiao.com/ch/news_tech    爬取里面的标题  我用了find_elements_by_xpath

不一定非要用selenium的
你试试这个代码  看看能不能拿到数据

  1. import requests

  2. url='https://www.toutiao.com/api/pc/feed/?'

  3. headers={
  4.     'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
  5. }
  6. params={
  7.     'min_behot_time': '0',
  8.     'refresh_count': '1',
  9.     'category': 'news_tech',
  10.     'utm_source': 'toutiao',
  11.     'widen': '1',
  12.     'tadrequire': 'true',
  13.     '_signature': '_02B4Z6wo00d01eDWtRwAAIDCJl-taOBJ2t3g8rGAABjn6cxBkgtLHOzFJDtYU3VcM3cwz7YTApRXybmmU.YUUyEYXOEM4BNeozIGE.z4PkW17XPWjlbWGm5GC315aHiR6t3KAXnWcmprpg2.f1'
  14. }

  15. res=requests.get(url=url,headers=headers,params=params)
  16. print(res.json())
复制代码

最佳答案

查看完整内容

不一定非要用selenium的 你试试这个代码 看看能不能拿到数据
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-21 12:40:45 | 显示全部楼层    本楼为最佳答案   
wcq15759797758 发表于 2021-6-21 13:17
https://www.toutiao.com/ch/news_tech    爬取里面的标题  我用了find_elements_by_xpath

不一定非要用selenium的
你试试这个代码  看看能不能拿到数据

  1. import requests

  2. url='https://www.toutiao.com/api/pc/feed/?'

  3. headers={
  4.     'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
  5. }
  6. params={
  7.     'min_behot_time': '0',
  8.     'refresh_count': '1',
  9.     'category': 'news_tech',
  10.     'utm_source': 'toutiao',
  11.     'widen': '1',
  12.     'tadrequire': 'true',
  13.     '_signature': '_02B4Z6wo00d01eDWtRwAAIDCJl-taOBJ2t3g8rGAABjn6cxBkgtLHOzFJDtYU3VcM3cwz7YTApRXybmmU.YUUyEYXOEM4BNeozIGE.z4PkW17XPWjlbWGm5GC315aHiR6t3KAXnWcmprpg2.f1'
  14. }

  15. res=requests.get(url=url,headers=headers,params=params)
  16. print(res.json())
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-21 12:54:58 From FishC Mobile | 显示全部楼层
网址拿来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-6-21 13:17:45 | 显示全部楼层
本帖最后由 wcq15759797758 于 2021-6-21 13:24 编辑


https://www.toutiao.com/ch/news_tech    爬取里面的标题  我用了find_elements_by_xpath
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-21 15:56:02 | 显示全部楼层
selenium 大法好
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-6-23 15:59:31 | 显示全部楼层
wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码  看看能不能拿到数据

谢谢大佬指点!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-6-23 16:00:05 | 显示全部楼层

我还在学selenium
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-23 16:08:49 | 显示全部楼层

selenium有个弱点  就是慢啊   所以 她是最后的选项  永远排在最后
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-6-23 16:08:59 | 显示全部楼层
wp231957 发表于 2021-6-21 12:40
不一定非要用selenium的
你试试这个代码  看看能不能拿到数据

大佬你这个url怎么分析出来的  还有参数我没找到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-23 16:11:38 | 显示全部楼层
本帖最后由 wp231957 于 2021-6-23 16:13 编辑
wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的  还有参数我没找到


开F12  或右键  检查   (最好是谷歌浏览器 火狐也可以  360极速模式也可以)
定位到NETWORK选项卡   然后刷新数据   着重看XHR 选项卡  然后就慢慢看吧  有的xhr 很多  但不都是你所关心的   如果xhr 什么都 没有   恭喜你,这是一个静态网页   很easy了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-6-23 16:16:59 | 显示全部楼层
wp231957 发表于 2021-6-23 16:11
开F12  或右键  检查   (最好是谷歌浏览器 火狐也可以  360极速模式也可以)
定位到NETWORK选项卡    ...

找到了! 谢谢大佬!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-23 16:20:25 | 显示全部楼层
wcq15759797758 发表于 2021-6-23 16:08
大佬你这个url怎么分析出来的  还有参数我没找到

进:
今日.jpg
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-6-23 16:20:42 | 显示全部楼层
wp231957 发表于 2021-6-23 16:11
开F12  或右键  检查   (最好是谷歌浏览器 火狐也可以  360极速模式也可以)
定位到NETWORK选项卡    ...

大佬如果用requests 那怎么样才可以下滑 这样取得话 只能取到一开始的信息
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-6-23 16:25:18 | 显示全部楼层
wcq15759797758 发表于 2021-6-23 16:20
大佬如果用requests 那怎么样才可以下滑 这样取得话 只能取到一开始的信息

这个就得慢慢分析了,搞不好和那个很长很长的sign 有关  典型的ajax
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-6-23 16:26:20 | 显示全部楼层
wp231957 发表于 2021-6-23 16:25
这个就得慢慢分析了,搞不好和那个很长很长的sign 有关  典型的ajax

谢谢大哥的分析!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 05:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表