scrapy爬虫问题，抓取网站人名、详情、链接等信息

TJstyles · 发表于 2019-1-10 11:30:18

您需要登录才可以下载或查看，没有账号？立即注册

x

我在某网页爬取人名、部门、个人详情、详情链接等信息。
现在是存在这种情况，在不同的部门中，存在相同的人名，对应着相同的详情连接和个人详情。但是scrapy只会抓取其中一个人的信息，会漏掉另外部门该人名的信息。

import scrapy
from zggcy.items import ZggcyItem
import copy
class YuanshiSpider(scrapy.Spider):
name = 'yuanshi'
allowed_domains = ['cae.cn']
start_urls = ['http://www.cae.cn/cae/html/main/col53/column_53_1.html']
def parse(self, response):
item = ZggcyItem()
for each in response.xpath('//div[@class="list2_navm clearfix"]/ul/li'):
item['group'] = each.xpath('./a/text()').extract_first()
item['type'] = '中国工程院院士'
group_url = each.xpath('./a/@href').extract_first()
group_url = response.urljoin(group_url)
yield scrapy.Request(url=group_url, meta={'item': copy.deepcopy(item)}, callback=self.parse2)
def parse2(self,response):
item = response.meta['item']
for each in response.xpath('//div[@class="right_md_ysmd"]/div/ul/li'):
item['link'] = each.xpath('./a/@href').extract_first()
item['name'] = each.xpath('./a/text()').extract_first()
detail_url = each.xpath('./a/@href').extract_first()
detail_url = response.urljoin(detail_url)
yield scrapy.Request(url=detail_url, meta={'item': copy.deepcopy(item)}, callback=self.parse3)
def parse3(self, response):
item = response.meta['item']
item['detail'] = ''.join(response.xpath('//div[@class="intro"]/p/text()').extract())
yield item

复制代码

TJstyles · 发表于 2019-1-10 11:30:57

请问我应该怎么修改代码，才能把信息抓全！

TJstyles · 发表于 2019-1-10 11:56:20

好吧，我自己解决了。。。

海风zZ · 发表于 2019-1-10 12:29:11

TJstyles 发表于 2019-1-10 11:56
好吧，我自己解决了。。。

怎么解决的，分享一下啊

TJstyles · 发表于 2019-1-10 15:13:30

把dont_filter的值改成TRUE就行了。因为在默认情况下值为false，scrapy是不会对同一个URL执行多次下载请求，会过滤掉之后的URL请求，修改为true之后就可以重复请求多次了

TJstyles · 发表于 2019-1-10 15:14:17

海风zZ 发表于 2019-1-10 12:29
怎么解决的，分享一下啊

见楼下

账号		自动登录	找回密码
密码			立即注册