|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
爬取一篇文章可是爬出来的是空的,是不是XPATH写错了? 一定当日或隔天结帖
- import requests
- from lxml import etree
- url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html/'
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
- }
- page_text = requests.get(url=url, headers=headers).text
- tree = etree.HTML(page_text)
- p_list = tree.xpath('//div[@id="Content"]/p')
- #print(p_list)
- fp = open('./Chinadaily.txt', 'w', encoding='utf-8')
- for p in p_list:
- content= p.xpath('./text()')[0]
- print(content)
- fp.write(content)
- print('over')
复制代码
本帖最后由 suchocolate 于 2020-10-23 12:32 编辑
1.去掉最后的/
- url = 'http://www.chinadaily.com.cn/a/202010/23/WS5f920f2da31024ad0ba8063d.html'
复制代码
2.有的内容在p的子节点,有的在p的下下级,得改成所有子孙节点。
- content = p.xpath('.//text()')[0]
复制代码
|
|