[已解决]scrapy爬虫里xpath的一个问题

下雨天出不去 · 发表于 2018-2-5 02:57:56

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

大家好！我又来问问题了！这次遇到的问题是这样哒。在我爬虫的时候，xpath分段或者不分段时，我打印出来的结果时不同的，但是我并不知道为什么。请看下面的例子：

import scrapy
class DmozSpider(scrapy.Spider):
name = 'dmoz'
allowed_domains = ['chinadmoz.org']
start_urls = [
'http://www.chinadmoz.org/subindustry/8/'
]
def parse(self,response):
title = response.xpath('//ul/li/div')
for ti in title:
a = ti.xpath('h4/a/text()').extract()
print(a)

复制代码

请看一下parse这个方法里的代码，此时我打出来的结果请看一下第一张图。
但是在另一个代码中：

def parse(self,response):
title = response.xpath('//ul/li/div/h4/a/text()').extract()
for ti in title:
print(ti)

复制代码

得出来的结果却是如图二所示。我想请问一下，如果我想要用图一方式写代码，又想得到像图二一样漂亮的输出结果，应该怎么做呢？
十分感谢！！！！

最佳答案

月排行榜 / 总排行榜

la_vie_est_bell

2018-2-5 10:50:26

本帖最后由 la_vie_est_bell 于 2018-2-5 13:54 编辑

title = response.xpath('//ul/li/div')

上面这行代码选中的有两个div元素

有两个div元素

而第一个div元素下面没有h4

这就是为什么图一中有空列表输出。

所以应该改成title = response.xpath('//ul/li/div[2]')以此来选中第二个div元素。

那为什么会输出列表而不是像图二中直接输出字符串呢？

需要知道Selector和SelectorList的区别，对前者使用extract()会返回字符串，而对SelectorList使用extract()会返回列表：

title = response.xpath('//ul/li/div[2]') 返回SelectorList对象

for ti in title: 选中SelectorList对象中每一个Selector

a = ti.xpath('h4/a/text()').extract() 这句话是关键，ti.xpath('h4/a/text()')该部分返SelectorList对象，所以使用extract()会返回List。

应该改成a = ti.xpath('h4/a/text()').extract_first() 来选中字符串。

跳转到最佳答案楼层

下雨天出不去 · 发表于 2018-2-5 02:58:48

我才发现小甲鱼的论坛，鱼币还要收税的。。。我真是，，墙都不服就服鱼C了。

la_vie_est_bell · 发表于 2018-2-5 10:50:26

这个最佳答案由 la_vie_est_bell 给出，感谢 la_vie_est_bell 的回答。

单击隐藏图章

本帖最后由 la_vie_est_bell 于 2018-2-5 13:54 编辑

title = response.xpath('//ul/li/div')

上面这行代码选中的有两个div元素

有两个div元素

而第一个div元素下面没有h4

这就是为什么图一中有空列表输出。

所以应该改成title = response.xpath('//ul/li/div[2]')以此来选中第二个div元素。

那为什么会输出列表而不是像图二中直接输出字符串呢？

需要知道Selector和SelectorList的区别，对前者使用extract()会返回字符串，而对SelectorList使用extract()会返回列表：

title = response.xpath('//ul/li/div[2]') 返回SelectorList对象

for ti in title: 选中SelectorList对象中每一个Selector

a = ti.xpath('h4/a/text()').extract() 这句话是关键，ti.xpath('h4/a/text()')该部分返SelectorList对象，所以使用extract()会返回List。

应该改成a = ti.xpath('h4/a/text()').extract_first() 来选中字符串。

下雨天出不去 · 发表于 2018-2-6 00:14:52

la_vie_est_bell 发表于 2018-2-5 10:50
title = response.xpath('//ul/li/div')

上面这行代码选中的有两个div元素

谢谢哥：）

小明吖 · 发表于 2018-3-2 09:59:39

瓜子仁 · 发表于 2018-3-9 23:00:19

刚好遇到这个问题

roluce · 发表于 2018-3-10 06:28:00

我也是，遇到这个问题了。。。。大神来

qiuyouzhi · 发表于 2018-3-10 07:38:06

账号		自动登录	找回密码
密码			立即注册

[已解决]scrapy爬虫里xpath的一个问题

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +10 鱼币

回帖奖励 +10 鱼币

回帖奖励 +10 鱼币

回帖奖励 +10 鱼币

回帖奖励 +10 鱼币