爬取到的网站里,有一部分内容是文本形式的http开头的链接,这部分内容要怎么输出?
求助大佬如题:爬取到的网站里,有一部分内容是文本形式的http开头的链接,这部分内容我要怎么写一个循环,把里面那http开头的内容打印出来?如下图,是我得到的其中一部分内容,这部分内容,在html下没有标签,仅仅是纯文本,因为刚学爬虫,xpath定位不到所有,谷歌浏览器下复制的xpath只有选择的那一部分,没有所有的一起抓的xpath
发网址 以及 想要提取的内容 wp231957 发表于 2021-9-30 10:33
发网址 以及 想要提取的内容
国外的网址,你能科学上网么,要把爬的东西交给网警的 用re模块搭配试试
先xpath选出节点,再用re匹配
页:
[1]