青松100 发表于 2020-10-23 09:19:07

小白想爬取一篇文章可是爬出来的是空的,是不是XPATH写错了

爬取一篇文章可是爬出来的是空的,是不是XPATH写错了? 一定当日或隔天结帖

import requests
from lxml import etree
url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
p_list = tree.xpath('//div[@id="Content"]/p')
#print(p_list)
fp = open('./Chinadaily.txt', 'w', encoding='utf-8')
for p in p_list:
    content= p.xpath('./text()')
    print(content)
    fp.write(content)
print('over')

青松100 发表于 2020-10-23 11:52:58

本帖最后由 青松100 于 2020-10-23 13:03 编辑

@风过无痕1989

大神,能不能帮帮我啊?

我看到您在站务的话了,您感到很失望。不过,放心,要是您能帮我解决这个问题,我一定当天或隔天采纳。

前提是:这个主帖,别人没有回答,或者他们的回答帮不上我。毕竟先回答者优先。万一,别人先回答了,我只能采纳他的,希望你们不会见怪。

————————————————————
有人帮到我了,不需要麻烦您了。谢谢!

suchocolate 发表于 2020-10-23 12:25:55

本帖最后由 suchocolate 于 2020-10-23 12:32 编辑

1.去掉最后的/
url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html'
2.有的内容在p的子节点,有的在p的下下级,得改成所有子孙节点。
content = p.xpath('.//text()')

青松100 发表于 2020-10-23 13:01:05

本帖最后由 青松100 于 2020-10-23 13:06 编辑

万分感谢,万分感谢!!!

万一下次看到我,希望还能得到您的帮助。

altf11 发表于 2020-10-23 13:11:06

借楼主的帖子聊两句:
平时几乎没怎么逛过论坛,这两天想起来了上来看看,python交流求助区居然有400+页的问题还是未解决状态!

随便看了几个,基本都是基础问题,随便查查资料自己也能解决。

有朋友说,我查了没找到解决办法,才上来发帖子的。好,我相信你查了,但你的问题是没有人回答你吗?

你问了,有人抽时间回答你了,然后,就没有然后了。。。(此处请播放背景音乐《感恩的心》)

还有就是论坛没管理,没版主吗?(这些未解决的互助问题就这么放着?)

没劲!!!

最后感谢那些回答问题的朋友们!(虽然我没有问过问题)
我觉得小甲鱼欠你们每人一个VIP{:5_91:} ,当然这是玩笑,但给你们加点论坛币还是应该的。

青松100 发表于 2020-10-23 13:14:00

本帖最后由 青松100 于 2020-10-23 13:15 编辑

altf11 发表于 2020-10-23 13:11
借楼主的帖子聊两句:
平时几乎没怎么逛过论坛,这两天想起来了上来看看,python交流求助区居然有400+页的 ...

大神,以后看到我,希望能帮助我。只要帮上了,我都会结帖的。

感谢,感恩。

不过有时一个问题好多人回答,而且都对了,我只能选第一个回答的人。

altf11 发表于 2020-10-23 13:26:38

青松100 发表于 2020-10-23 13:14
大神,以后看到我,希望能帮助我。只要帮上了,我都会结帖的。

感谢,感恩。


我不是什么大神。

只是突然想起来,上论坛逛逛,已经很久很久没有来过了。

虽然有上面提到的问题,觉得挺没劲,但也还是看了几个求助,能答的答一下也无所谓。

希望论坛越来越好吧

青松100 发表于 2020-10-23 13:30:57

本帖最后由 青松100 于 2020-10-23 13:33 编辑

altf11 发表于 2020-10-23 13:26
我不是什么大神。

只是突然想起来,上论坛逛逛,已经很久很久没有来过了。


希望你们能常上来看看,我代表不了所有小白,至少我个人很需要你们。

别的论坛都没啥人气了。

我觉得您是个热心人,否则也不会打这么字来建议了。支持
页: [1]
查看完整版本: 小白想爬取一篇文章可是爬出来的是空的,是不是XPATH写错了