[已解决]求一组正确xpath代码，可以按照原文顺序爬取所有P标签包含strong标签文本内容

uthgavin · 发表于 2021-2-4 15:18:15

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

目前本人只会单行代码分别爬取P标签和Strong标签里的文本信息，这样下载出来无法一一对应，因为并不是每个网页都有strong标签
mbhtml.xpath('//div【@class="ct-list"】/p/text()')
mbhtml.xpath('//div【@class="ct-list"】/p/strong/text()')

如题，请教如何正确编写一句爬虫代码，可以下载p标签以及下面对应的strong标签里面的文本信息，谢谢！

最佳答案

月排行榜 / 总排行榜

YunGuo

2021-2-6 17:29:37

uthgavin 发表于 2021-2-5 14:55
网址发不出来，过不了审核。加号实际是反斜杠，m点ttyyaa点com+index+free_detail+record_id+210点html，你 ...

内容都在div标签下面，那就去掉我上面写的xpath最后的p就行了。

mbhtml.xpath('string(//div[@class="ct-list"])')

复制代码

跳转到最佳答案楼层

YunGuo · 发表于 2021-2-4 15:43:29

mbhtml.xpath('string(//div[@class="ct-list"]/p)')

复制代码

uthgavin · 发表于 2021-2-4 20:38:20

YunGuo 发表于 2021-2-4 15:43

非常感谢你的回复！但是貌似这个代码只截取了第一个p标签里面的内容，其他并列的若干p标签的内容直接被舍弃掉了，毕竟原文中p标签内容更多，只是少数p标签段落里面包含strong标签内容。还需要更完整抓取的代码，谢谢！

YunGuo · 发表于 2021-2-5 01:45:46

uthgavin 发表于 2021-2-4 20:38
非常感谢你的回复！但是貌似这个代码只截取了第一个p标签里面的内容，其他并列的若干p标签的内容直接被舍 ...

网址发出来，网址不发的话没法给你写xpath

uthgavin · 发表于 2021-2-5 14:55:43

网址发不出来，过不了审核。加号实际是反斜杠，m点ttyyaa点com+index+free_detail+record_id+210点html，你试试看

YunGuo · 发表于 2021-2-6 17:29:37

这个最佳答案由 YunGuo 给出，感谢 YunGuo 的回答。

单击隐藏图章

uthgavin 发表于 2021-2-5 14:55
网址发不出来，过不了审核。加号实际是反斜杠，m点ttyyaa点com+index+free_detail+record_id+210点html，你 ...

内容都在div标签下面，那就去掉我上面写的xpath最后的p就行了。

mbhtml.xpath('string(//div[@class="ct-list"])')

复制代码

uthgavin · 发表于 2021-2-6 18:47:25

YunGuo 发表于 2021-2-6 17:29
内容都在div标签下面，那就去掉我上面写的xpath最后的p就行了。

非常感谢！有时候就是一层窗户纸，菜鸟非专业人士就是得不到预期效果！

账号		自动登录	找回密码
密码			立即注册