鱼C论坛

 找回密码
 立即注册
查看: 1756|回复: 3

爬取到的网站里,有一部分内容是文本形式的http开头的链接,这部分内容要怎么输出?

[复制链接]
发表于 2021-9-30 09:17:17 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
求助大佬如题:爬取到的网站里,有一部分内容是文本形式的http开头的链接,这部分内容我要怎么写一个循环,把里面那http开头的内容打印出来?
如下图,是我得到的其中一部分内容,这部分内容,在html下没有标签,仅仅是纯文本,因为刚学爬虫,xpath定位不到所有,谷歌浏览器下复制的xpath只有选择的那一部分,没有所有的一起抓的xpath
微信图片_20210930091706.png
微信图片_20210930091510.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-9-30 10:33:16 | 显示全部楼层
发网址 以及 想要提取的内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-9-30 11:12:55 | 显示全部楼层
wp231957 发表于 2021-9-30 10:33
发网址 以及 想要提取的内容

国外的网址,你能科学上网么,要把爬的东西交给网警的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-9-30 15:40:42 | 显示全部楼层
用re模块搭配试试
先xpath选出节点,再用re匹配
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-13 07:58

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表