[已解决]爬虫问题

slhlde · 发表于 2018-7-30 23:10:36

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from lxml import etree
headers={"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
url='https://www.qiushibaike.com/text/'
res=requests.get(url,headers=headers)
selector=etree.HTML(res.text)
url_infos=selector.xpath('//div[@class="article block untagged mb15"]')
for url_info in url_infos:
id=url_info.xpath('div[1]/a[2]/h2/text()')[0]
print(id)

这是书上的源码
运行了显示<built-in function id>

.xpath('//div[@class="article block untagged mb15"]') 这个我保持怀疑因为我看了后面还有 typs_long 或者 typs_hot
那么是不是要加上去？？？变成：('//div[@class="article block untagged mb15 typs_long"]')

最佳答案

月排行榜 / 总排行榜

mongoole

2018-8-3 10:40:21

你要是爬取内容~~
诺~

url_infos=selector.xpath('//div[@class="content"]/span[1]/text()')
# print(url_infos)
for url_info in url_infos:
print(url_info)

复制代码

跳转到最佳答案楼层

1041288269 · 发表于 2018-7-31 01:08:39

//div[@class="article block untagged mb15 typs_hot"]/a/@href

1041288269 · 发表于 2018-7-31 01:09:34

//div[@class="article block untagged mb15 typs_hot"]/a/@href

slhlde · 发表于 2018-7-31 09:24:10

1041288269 发表于 2018-7-31 01:09
//div[@class="article block untagged mb15 typs_hot"]/a/@href

加/a我可以理解但是加@href 不理解什么意思难道不是加/span???

谢谢您的回复
期待新的回复。

luckin · 发表于 2018-8-2 18:41:39

建议用BeautifulSoup

wei_Y · 发表于 2018-8-2 19:27:38

id是内置函数，你的xpath并没有取到数据，所以url_info为空。

slhlde · 发表于 2018-8-3 09:07:21

wei_Y 发表于 2018-8-2 19:27
id是内置函数，你的xpath并没有取到数据，所以url_info为空。

喔喔谢谢您的回复那该怎么解决呢？

mongoole · 发表于 2018-8-3 10:40:21

这个最佳答案由 mongoole 给出，感谢 mongoole 的回答。

单击隐藏图章

你要是爬取内容~~
诺~

url_infos=selector.xpath('//div[@class="content"]/span[1]/text()')
# print(url_infos)
for url_info in url_infos:
print(url_info)

复制代码

slhlde · 发表于 2018-8-5 23:09:40

mongoole 发表于 2018-8-3 10:40
你要是爬取内容~~
诺~

谢谢层主代码前面的行号怎么设置？？就是你回复的代码格式怎么设置

账号		自动登录	找回密码
密码			立即注册