爬虫出来的结果列表不符合想象，求助如何调整？,Python交流,编程语言专区,鱼C论坛

老阿訇 发表于 2022-8-24 18:46:08

爬虫出来的结果列表不符合想象，求助如何调整？

from lxml import etree
import requests

url = "http://nj.sell.house365.com/district/"
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
div_list = tree.xpath('//div[@class="mainContent__table clearfix"]/div')

for div in div_list:
title = div.xpath("./div/div/div/a/text()")
print(title)

代码如上，想爬取出干净的标题列表，但结果不符合预期，是爬取有问题还是其他问题？该如何调整呢？？

wp231957 发表于 2022-8-24 20:12:41

得看网站是否允许静态爬取，xpath仅限于静态解析

鱼cpython学习者 发表于 2022-8-24 21:01:23

13, 14行改成：
title = ''.join(div.xpath("./div/div/div/a/text()"))
print(title.strip())

老阿訇 发表于 2022-8-25 09:26:01

鱼cpython学习者发表于 2022-8-24 21:01
13, 14行改成：

感谢

页: [1]

鱼C论坛's Archiver

爬虫出来的结果列表不符合想象，求助如何调整？