求一组正确xpath代码,可以按照原文顺序爬取所有P标签包含strong标签文本内容
目前本人只会单行代码分别爬取P标签和Strong标签里的文本信息,这样下载出来无法一一对应,因为并不是每个网页都有strong标签mbhtml.xpath('//div【@class="ct-list"】/p/text()')
mbhtml.xpath('//div【@class="ct-list"】/p/strong/text()')
如题,请教如何正确编写一句爬虫代码,可以下载p标签以及下面对应的strong标签里面的文本信息,谢谢!
mbhtml.xpath('string(//div[@class="ct-list"]/p)') YunGuo 发表于 2021-2-4 15:43
非常感谢你的回复!但是貌似这个代码只截取了第一个p标签里面的内容,其他并列的若干p标签的内容直接被舍弃掉了,毕竟原文中p标签内容更多,只是少数p标签段落里面包含strong标签内容。还需要更完整抓取的代码,谢谢! uthgavin 发表于 2021-2-4 20:38
非常感谢你的回复!但是貌似这个代码只截取了第一个p标签里面的内容,其他并列的若干p标签的内容直接被舍 ...
网址发出来,网址不发的话没法给你写xpath 网址发不出来,过不了审核。加号实际是反斜杠,m点ttyyaa点com+index+free_detail+record_id+210点html,你试试看 uthgavin 发表于 2021-2-5 14:55
网址发不出来,过不了审核。加号实际是反斜杠,m点ttyyaa点com+index+free_detail+record_id+210点html,你 ...
内容都在div标签下面,那就去掉我上面写的xpath最后的p就行了。
mbhtml.xpath('string(//div[@class="ct-list"])') YunGuo 发表于 2021-2-6 17:29
内容都在div标签下面,那就去掉我上面写的xpath最后的p就行了。
非常感谢!有时候就是一层窗户纸,菜鸟非专业人士就是得不到预期效果!{:10_257:}
页:
[1]