|
|
发表于 2017-7-24 09:31:22
|
显示全部楼层
本楼为最佳答案
本帖最后由 和vvv 于 2017-7-24 09:32 编辑
这里
- def parse(self,response):
- sel=scrapy.selector.Selector(response)
- sites=sel.xpath('//td/h2')
复制代码
直接使用:
response.xpath("").extract()提取数据。
如果想看网页源码
data = response.body
这是我以前用scrapy框架写的一部分:- def parse(self, response):
- item = DangdangItem()
- item["title"] = response.xpath("//a[@name='itemlist-picture']/@title").extract()
- item["link"] = response.xpath("//a[@name='itemlist-picture']/@href").extract()
- item["comment"] = response.xpath("//a[@name='itemlist-review']/text()").extract()
- yield item
- for i in range(2,81):
- url = "http://category.dangdang.com/pg"+str(i)+"-cid4008154.html"
- yield Request(url,callback=self.parse)
复制代码
|
|