[已解决]python3中scrapy

zkamsk · 发表于 2017-7-22 18:37:36

您需要登录才可以下载或查看，没有账号？立即注册

x

python3中以下代码会报这个错误'str' object has no attribute 'xpath'是为什么？

复制代码

应该怎么改

最佳答案

和vvv

2017-7-24 09:31:22

本帖最后由和vvv 于 2017-7-24 09:32 编辑
这里

复制代码

直接使用：
response.xpath("").extract()提取数据。
如果想看网页源码
data = response.body
这是我以前用scrapy框架写的一部分：

def parse(self, response):
item = DangdangItem()
item["title"] = response.xpath("//a[@name='itemlist-picture']/@title").extract()
item["link"] = response.xpath("//a[@name='itemlist-picture']/@href").extract()
item["comment"] = response.xpath("//a[@name='itemlist-review']/text()").extract()
yield item
for i in range(2,81):
url = "http://category.dangdang.com/pg"+str(i)+"-cid4008154.html"
yield Request(url,callback=self.parse)

复制代码

gopythoner · 发表于 2017-7-22 19:12:06

说明sites是个字符串，不是一个网页标签的对象
你看看你是不是把sites变成字符串了

和vvv · 发表于 2017-7-22 21:26:45

本帖最后由和vvv 于 2017-7-22 21:27 编辑
在scrapy框架中，直接能使用xpath表达式的是response对象：

复制代码

如果是字符串想利用xpath表达式，可以利用lxml库。这是urllib库与xpath表达式的结合使用：

复制代码

结果：

复制代码

希望对你有所帮助。

zkamsk · 发表于 2017-7-24 09:11:16

和vvv 发表于 2017-7-22 21:26
本帖最后由和vvv 于 2017-7-22 21:27 编辑
在scrapy框架中，直接能使用xpath表达式的是response对象：
...

在scraoy shell中sites=sel.xpath('//td/h2')或者sites=sel.xpath('//td/h2/a/@href')都可以正确返回，但是按照教程

复制代码

import scrapy
from fishc.items import FishcItem
class FishcSpider(scrapy.Spider):
name='fishc'
allowed_domains=['fishc.com']
start_urls=['http://bbs.fishc.com/forum-173-1.html','http://bbs.fishc.com/forum-173-2.html']
def parse(self,response):
sel=scrapy.selector.Selector(response)
sites=sel.xpath('//td/h2')
items=[]
for i in sites:
item=FishcItem()
item['title']=i.xpath('a/text()').extract()
item['link']=i.xpath('a/@href').extract()
item['desc']=i.xpath('text()').extract()
items.append(item)
return items

复制代码

这样就不行
以下是我scrapy中spider源码

和vvv · 发表于 2017-7-24 09:31:22

本帖最后由和vvv 于 2017-7-24 09:32 编辑
这里

复制代码

直接使用：
response.xpath("").extract()提取数据。
如果想看网页源码
data = response.body
这是我以前用scrapy框架写的一部分：

def parse(self, response):
item = DangdangItem()
item["title"] = response.xpath("//a[@name='itemlist-picture']/@title").extract()
item["link"] = response.xpath("//a[@name='itemlist-picture']/@href").extract()
item["comment"] = response.xpath("//a[@name='itemlist-review']/text()").extract()
yield item
for i in range(2,81):
url = "http://category.dangdang.com/pg"+str(i)+"-cid4008154.html"
yield Request(url,callback=self.parse)

复制代码

zkamsk · 发表于 2017-7-24 09:47:54

和vvv 发表于 2017-7-24 09:31
本帖最后由和vvv 于 2017-7-24 09:32 编辑
这里

OK

账号		自动登录	找回密码
密码			立即注册