凌绝顶 发表于 2020-5-23 19:36:01

大佬们,怎么在网页源代码里面提取自己想要的信息?

最近在家学习爬虫,但不知怎么从网页源代码中提取自己所需的信息
望广大鱼油们帮助我,谢谢了

wp231957 发表于 2020-5-23 19:37:01

这范围太大,问问题也没这么问的吧

qiuyouzhi 发表于 2020-5-23 19:38:09

XPath,regex

xiaosi4081 发表于 2020-5-23 19:40:40

target = soup.find_all(标签名字)

xiaosi4081 发表于 2020-5-23 19:41:31

正则,都行的

凌绝顶 发表于 2020-5-23 19:45:15

xiaosi4081 发表于 2020-5-23 19:40
target = soup.find_all(标签名字)

谢谢哦

Twilight6 发表于 2020-5-23 19:46:20

去b站找Python爬虫教程,先学学数据提取

数据提取主要有这些:

正则表达式

Beautiful Soup

XPath

JsonPath

PyQuery

Scrapy、Selenium 也可以提取数据

具体怎么提取,你学了这些就自然懂得
页: [1]
查看完整版本: 大佬们,怎么在网页源代码里面提取自己想要的信息?