鱼C论坛

 找回密码
 立即注册
查看: 1831|回复: 6

[已解决]求一组正确xpath代码,可以按照原文顺序爬取所有P标签包含strong标签文本内容

[复制链接]
发表于 2021-2-4 15:18:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
目前本人只会单行代码分别爬取P标签和Strong标签里的文本信息,这样下载出来无法一一对应,因为并不是每个网页都有strong标签
mbhtml.xpath('//div【@class="ct-list"】/p/text()')
mbhtml.xpath('//div【@class="ct-list"】/p/strong/text()')

如题,请教如何正确编写一句爬虫代码,可以下载p标签以及下面对应的strong标签里面的文本信息,谢谢!

最佳答案
2021-2-6 17:29:37
uthgavin 发表于 2021-2-5 14:55
网址发不出来,过不了审核。加号实际是反斜杠,m点ttyyaa点com+index+free_detail+record_id+210点html,你 ...

内容都在div标签下面,那就去掉我上面写的xpath最后的p就行了。
mbhtml.xpath('string(//div[@class="ct-list"])')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-4 15:43:29 | 显示全部楼层
mbhtml.xpath('string(//div[@class="ct-list"]/p)')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-2-4 20:38:20 | 显示全部楼层

非常感谢你的回复!但是貌似这个代码只截取了第一个p标签里面的内容,其他并列的若干p标签的内容直接被舍弃掉了,毕竟原文中p标签内容更多,只是少数p标签段落里面包含strong标签内容。还需要更完整抓取的代码,谢谢!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-2-5 01:45:46 | 显示全部楼层
uthgavin 发表于 2021-2-4 20:38
非常感谢你的回复!但是貌似这个代码只截取了第一个p标签里面的内容,其他并列的若干p标签的内容直接被舍 ...

网址发出来,网址不发的话没法给你写xpath
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-2-5 14:55:43 | 显示全部楼层
网址发不出来,过不了审核。加号实际是反斜杠,m点ttyyaa点com+index+free_detail+record_id+210点html,你试试看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-2-6 17:29:37 | 显示全部楼层    本楼为最佳答案   
uthgavin 发表于 2021-2-5 14:55
网址发不出来,过不了审核。加号实际是反斜杠,m点ttyyaa点com+index+free_detail+record_id+210点html,你 ...

内容都在div标签下面,那就去掉我上面写的xpath最后的p就行了。
mbhtml.xpath('string(//div[@class="ct-list"])')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-2-6 18:47:25 | 显示全部楼层
YunGuo 发表于 2021-2-6 17:29
内容都在div标签下面,那就去掉我上面写的xpath最后的p就行了。

非常感谢!有时候就是一层窗户纸,菜鸟非专业人士就是得不到预期效果!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-16 13:06

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表