鱼C论坛

 找回密码
 立即注册
查看: 1730|回复: 6

[已解决]大佬们,怎么在网页源代码里面提取自己想要的信息?

[复制链接]
发表于 2020-5-23 19:36:01 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
最近在家学习爬虫,但不知怎么从网页源代码中提取自己所需的信息
望广大鱼油们帮助我,谢谢了
最佳答案
2020-5-23 19:40:40
target = soup.find_all(标签名字)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-23 19:37:01 From FishC Mobile | 显示全部楼层
这范围太大,问问题也没这么问的吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-23 19:38:09 | 显示全部楼层
XPath,regex
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-23 19:40:40 | 显示全部楼层    本楼为最佳答案   
target = soup.find_all(标签名字)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-23 19:41:31 | 显示全部楼层
正则,都行的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-23 19:45:15 | 显示全部楼层
xiaosi4081 发表于 2020-5-23 19:40
target = soup.find_all(标签名字)

谢谢哦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-23 19:46:20 | 显示全部楼层
去b站找Python爬虫教程,先学学数据提取

数据提取主要有这些:

正则表达式

Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

具体怎么提取,你学了这些就自然懂得

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-21 03:04

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表