小白想爬取一篇文章可是爬出来的是空的,是不是XPATH写错了
爬取一篇文章可是爬出来的是空的,是不是XPATH写错了? 一定当日或隔天结帖import requests
from lxml import etree
url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html/'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
p_list = tree.xpath('//div[@id="Content"]/p')
#print(p_list)
fp = open('./Chinadaily.txt', 'w', encoding='utf-8')
for p in p_list:
content= p.xpath('./text()')
print(content)
fp.write(content)
print('over')
本帖最后由 青松100 于 2020-10-23 13:03 编辑
@风过无痕1989
大神,能不能帮帮我啊?
我看到您在站务的话了,您感到很失望。不过,放心,要是您能帮我解决这个问题,我一定当天或隔天采纳。
前提是:这个主帖,别人没有回答,或者他们的回答帮不上我。毕竟先回答者优先。万一,别人先回答了,我只能采纳他的,希望你们不会见怪。
————————————————————
有人帮到我了,不需要麻烦您了。谢谢! 本帖最后由 suchocolate 于 2020-10-23 12:32 编辑
1.去掉最后的/
url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html'
2.有的内容在p的子节点,有的在p的下下级,得改成所有子孙节点。
content = p.xpath('.//text()') 本帖最后由 青松100 于 2020-10-23 13:06 编辑
万分感谢,万分感谢!!!
万一下次看到我,希望还能得到您的帮助。 借楼主的帖子聊两句:
平时几乎没怎么逛过论坛,这两天想起来了上来看看,python交流求助区居然有400+页的问题还是未解决状态!
随便看了几个,基本都是基础问题,随便查查资料自己也能解决。
有朋友说,我查了没找到解决办法,才上来发帖子的。好,我相信你查了,但你的问题是没有人回答你吗?
你问了,有人抽时间回答你了,然后,就没有然后了。。。(此处请播放背景音乐《感恩的心》)
还有就是论坛没管理,没版主吗?(这些未解决的互助问题就这么放着?)
没劲!!!
最后感谢那些回答问题的朋友们!(虽然我没有问过问题)
我觉得小甲鱼欠你们每人一个VIP{:5_91:} ,当然这是玩笑,但给你们加点论坛币还是应该的。
本帖最后由 青松100 于 2020-10-23 13:15 编辑
altf11 发表于 2020-10-23 13:11
借楼主的帖子聊两句:
平时几乎没怎么逛过论坛,这两天想起来了上来看看,python交流求助区居然有400+页的 ...
大神,以后看到我,希望能帮助我。只要帮上了,我都会结帖的。
感谢,感恩。
不过有时一个问题好多人回答,而且都对了,我只能选第一个回答的人。
青松100 发表于 2020-10-23 13:14
大神,以后看到我,希望能帮助我。只要帮上了,我都会结帖的。
感谢,感恩。
我不是什么大神。
只是突然想起来,上论坛逛逛,已经很久很久没有来过了。
虽然有上面提到的问题,觉得挺没劲,但也还是看了几个求助,能答的答一下也无所谓。
希望论坛越来越好吧
本帖最后由 青松100 于 2020-10-23 13:33 编辑
altf11 发表于 2020-10-23 13:26
我不是什么大神。
只是突然想起来,上论坛逛逛,已经很久很久没有来过了。
希望你们能常上来看看,我代表不了所有小白,至少我个人很需要你们。
别的论坛都没啥人气了。
我觉得您是个热心人,否则也不会打这么字来建议了。支持
页:
[1]