马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
爬取一篇文章可是爬出来的是空的,是不是XPATH写错了? 一定当日或隔天结帖
import requests
from lxml import etree
url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html/'
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
p_list = tree.xpath('//div[@id="Content"]/p')
#print(p_list)
fp = open('./Chinadaily.txt', 'w', encoding='utf-8')
for p in p_list:
content= p.xpath('./text()')[0]
print(content)
fp.write(content)
print('over')
本帖最后由 suchocolate 于 2020-10-23 12:32 编辑
1.去掉最后的/ url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html'
2.有的内容在p的子节点,有的在p的下下级,得改成所有子孙节点。 content = p.xpath('.//text()')[0]
|