sym945 发表于 2021-9-30 09:17:17

爬取到的网站里,有一部分内容是文本形式的http开头的链接,这部分内容要怎么输出?

求助大佬如题:爬取到的网站里,有一部分内容是文本形式的http开头的链接,这部分内容我要怎么写一个循环,把里面那http开头的内容打印出来?
如下图,是我得到的其中一部分内容,这部分内容,在html下没有标签,仅仅是纯文本,因为刚学爬虫,xpath定位不到所有,谷歌浏览器下复制的xpath只有选择的那一部分,没有所有的一起抓的xpath

wp231957 发表于 2021-9-30 10:33:16

发网址 以及 想要提取的内容

sym945 发表于 2021-9-30 11:12:55

wp231957 发表于 2021-9-30 10:33
发网址 以及 想要提取的内容

国外的网址,你能科学上网么,要把爬的东西交给网警的

大马强 发表于 2021-9-30 15:40:42

用re模块搭配试试
先xpath选出节点,再用re匹配
页: [1]
查看完整版本: 爬取到的网站里,有一部分内容是文本形式的http开头的链接,这部分内容要怎么输出?