小白想爬取一篇文章可是爬出来的是空的，是不是XPATH写错了,Python交流,编程语言专区,鱼C论坛

青松100 发表于 2020-10-23 09:19:07

小白想爬取一篇文章可是爬出来的是空的，是不是XPATH写错了

爬取一篇文章可是爬出来的是空的，是不是XPATH写错了？　一定当日或隔天结帖

import requests
from lxml import etree
url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html/'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
p_list = tree.xpath('//div[@id="Content"]/p')
#print(p_list)
fp = open('./Chinadaily.txt', 'w', encoding='utf-8')
for p in p_list:
content= p.xpath('./text()')
print(content)
fp.write(content)
print('over')

青松100 发表于 2020-10-23 11:52:58

本帖最后由青松100 于 2020-10-23 13:03 编辑

@风过无痕1989

大神，能不能帮帮我啊？

我看到您在站务的话了，您感到很失望。不过，放心，要是您能帮我解决这个问题，我一定当天或隔天采纳。

前提是：这个主帖，别人没有回答，或者他们的回答帮不上我。毕竟先回答者优先。万一，别人先回答了，我只能采纳他的，希望你们不会见怪。

————————————————————
有人帮到我了，不需要麻烦您了。谢谢！

suchocolate 发表于 2020-10-23 12:25:55

本帖最后由 suchocolate 于 2020-10-23 12:32 编辑

1.去掉最后的/
url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html'
2.有的内容在p的子节点，有的在p的下下级，得改成所有子孙节点。
content = p.xpath('.//text()')

青松100 发表于 2020-10-23 13:01:05

本帖最后由青松100 于 2020-10-23 13:06 编辑

万分感谢，万分感谢！！！

万一下次看到我，希望还能得到您的帮助。

altf11 发表于 2020-10-23 13:11:06

借楼主的帖子聊两句：
平时几乎没怎么逛过论坛，这两天想起来了上来看看，python交流求助区居然有400+页的问题还是未解决状态！

随便看了几个，基本都是基础问题，随便查查资料自己也能解决。

有朋友说，我查了没找到解决办法，才上来发帖子的。好，我相信你查了，但你的问题是没有人回答你吗？

你问了，有人抽时间回答你了，然后，就没有然后了。。。（此处请播放背景音乐《感恩的心》）

还有就是论坛没管理，没版主吗？（这些未解决的互助问题就这么放着？）

没劲！！！

最后感谢那些回答问题的朋友们！（虽然我没有问过问题）
我觉得小甲鱼欠你们每人一个VIP{:5_91:} ，当然这是玩笑，但给你们加点论坛币还是应该的。

青松100 发表于 2020-10-23 13:14:00

本帖最后由青松100 于 2020-10-23 13:15 编辑

altf11 发表于 2020-10-23 13:11
借楼主的帖子聊两句：
平时几乎没怎么逛过论坛，这两天想起来了上来看看，python交流求助区居然有400+页的 ...

大神，以后看到我，希望能帮助我。只要帮上了，我都会结帖的。

感谢，感恩。

不过有时一个问题好多人回答，而且都对了，我只能选第一个回答的人。

altf11 发表于 2020-10-23 13:26:38

青松100 发表于 2020-10-23 13:14
大神，以后看到我，希望能帮助我。只要帮上了，我都会结帖的。

感谢，感恩。

我不是什么大神。

只是突然想起来，上论坛逛逛，已经很久很久没有来过了。

虽然有上面提到的问题，觉得挺没劲，但也还是看了几个求助，能答的答一下也无所谓。

希望论坛越来越好吧

青松100 发表于 2020-10-23 13:30:57

本帖最后由青松100 于 2020-10-23 13:33 编辑

altf11 发表于 2020-10-23 13:26
我不是什么大神。

只是突然想起来，上论坛逛逛，已经很久很久没有来过了。

希望你们能常上来看看，我代表不了所有小白，至少我个人很需要你们。

别的论坛都没啥人气了。

我觉得您是个热心人，否则也不会打这么字来建议了。支持

页: [1]

鱼C论坛's Archiver

小白想爬取一篇文章可是爬出来的是空的，是不是XPATH写错了