uthgavin 发表于 2021-2-4 15:18:15

求一组正确xpath代码,可以按照原文顺序爬取所有P标签包含strong标签文本内容

目前本人只会单行代码分别爬取P标签和Strong标签里的文本信息,这样下载出来无法一一对应,因为并不是每个网页都有strong标签
mbhtml.xpath('//div【@class="ct-list"】/p/text()')
mbhtml.xpath('//div【@class="ct-list"】/p/strong/text()')

如题,请教如何正确编写一句爬虫代码,可以下载p标签以及下面对应的strong标签里面的文本信息,谢谢!

YunGuo 发表于 2021-2-4 15:43:29

mbhtml.xpath('string(//div[@class="ct-list"]/p)')

uthgavin 发表于 2021-2-4 20:38:20

YunGuo 发表于 2021-2-4 15:43


非常感谢你的回复!但是貌似这个代码只截取了第一个p标签里面的内容,其他并列的若干p标签的内容直接被舍弃掉了,毕竟原文中p标签内容更多,只是少数p标签段落里面包含strong标签内容。还需要更完整抓取的代码,谢谢!

YunGuo 发表于 2021-2-5 01:45:46

uthgavin 发表于 2021-2-4 20:38
非常感谢你的回复!但是貌似这个代码只截取了第一个p标签里面的内容,其他并列的若干p标签的内容直接被舍 ...

网址发出来,网址不发的话没法给你写xpath

uthgavin 发表于 2021-2-5 14:55:43

网址发不出来,过不了审核。加号实际是反斜杠,m点ttyyaa点com+index+free_detail+record_id+210点html,你试试看

YunGuo 发表于 2021-2-6 17:29:37

uthgavin 发表于 2021-2-5 14:55
网址发不出来,过不了审核。加号实际是反斜杠,m点ttyyaa点com+index+free_detail+record_id+210点html,你 ...

内容都在div标签下面,那就去掉我上面写的xpath最后的p就行了。
mbhtml.xpath('string(//div[@class="ct-list"])')

uthgavin 发表于 2021-2-6 18:47:25

YunGuo 发表于 2021-2-6 17:29
内容都在div标签下面,那就去掉我上面写的xpath最后的p就行了。

非常感谢!有时候就是一层窗户纸,菜鸟非专业人士就是得不到预期效果!{:10_257:}
页: [1]
查看完整版本: 求一组正确xpath代码,可以按照原文顺序爬取所有P标签包含strong标签文本内容