今天的我更强了 发表于 2020-6-25 23:36:16

爬取www.mztu.com

在获取网页页码的时候,审查元素之后是<span>66</span>,应该怎么获取..还没有学到re.

赚小钱 发表于 2020-6-25 23:38:09

那就去学正则

Twilight6 发表于 2020-6-26 00:06:46

你现在学了哪些数据提取了呢?

suchocolate 发表于 2020-6-26 00:23:12

总得找一个方式处理网页,re,xpath,beautifulsoup,pyquery。

青出于蓝 发表于 2020-6-26 09:09:55

没学re,只会find?

Pythonnewers 发表于 2020-6-26 09:59:04

re.findall('<span>".*?"</span>',HTML)
就可以了,建议学习

今天的我更强了 发表于 2020-6-26 10:05:02

Twilight6 发表于 2020-6-26 00:06
你现在学了哪些数据提取了呢?

不是啊 就是想根据第十四章讲的题目 自己看能不能爬一下这个网址

今天的我更强了 发表于 2020-6-26 10:05:36

青出于蓝 发表于 2020-6-26 09:09
没学re,只会find?

还没学到...

Twilight6 发表于 2020-6-26 10:16:43

今天的我更强了 发表于 2020-6-26 10:05
不是啊 就是想根据第十四章讲的题目 自己看能不能爬一下这个网址

你要先学数据提取,否则没办法的,正则,Xpath,bs4什么的都学学

今天的我更强了 发表于 2020-6-26 12:18:53

Twilight6 发表于 2020-6-26 10:16
你要先学数据提取,否则没办法的,正则,Xpath,bs4什么的都学学

好的 谢谢
页: [1]
查看完整版本: 爬取www.mztu.com