[已解决]scrapy爬虫yield重定向的问题

shentianbusi · 发表于 2019-2-20 10:06:46

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

# -*- coding: utf-8 -*-
import scrapy
from amazoncar import items
from amazoncar.items import AmazoncarItem
from scrapy.http import Request
import re
import time
class AmazonSpider(scrapy.Spider):
name = 'amazon'
allowed_domains = ['amazon.com']
# start_urls = ['https://www.amazon.com/b/ref=sr_aj?node=10677469011&bbn=10677469011&ajr=0'] 首先用这个爬取各类汽车分类界面地址
def start_requests(self):
urls=['https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_0?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710192011&ie=UTF8',
'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_1?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710193011&ie=UTF8',
'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_2?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710199011&ie=UTF8']
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_3?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710198011&ie=UTF8',
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_4?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710200011&ie=UTF8',
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_5?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710195011&ie=UTF8',
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_6?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710201011&ie=UTF8',
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_7?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710197011&ie=UTF8',
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_8?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710194011&ie=UTF8',
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_9?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710196011&ie=UTF8',
# 'https://www.amazon.com/s/ref=lp_10677469011_nr_p_n_feature_four_bro_10?fst=as%3Aoff&rh=n%3A10677469011%2Cp_n_feature_four_browse-bin%3A11710202011&&ie=UTF8']
pages=[26,71,20,20,16,9,14,21,140,85,19]
#pages=[3,3,3,3,3,3,3,3,3,3,3]
for url in urls:
# for i in range(1,pages[i]+1):#11
# print(url)
# starturl=url+'&page={}'.format(i)
# if i==30 or i==60 or i==90 or i==120:
# time.sleep(10)
# else:
# pass
# yield scrapy.Request(url=starturl, callback=self.parse)
yield scrapy.Request(url,callback=self.parse,dont_filter=True)
def parse(self, response): #爬虫逻辑
# print(response.text[0:100])
# addlist = []
# str1='https://www.amazon.com'
# for i in range(1,12):
# addpath=response.xpath('//*[@id="leftNav"]/ul[1]/div/li[{}]/span/span'.format(i)).re("/s.*rnid=11710191011")
# addlist.append(str1+addpath[0])
# print(addlist) #验证是否成功取得地址
amzitem = AmazoncarItem()
maxpage=response.xpath('//*[@id="pagn"]/span[6]').re('>.*<') #.re("data='.*'"))
if maxpage:
maxpage=maxpage[0][1:-1]
else:
print(response.url)
return 0
#页面产品代号
m=response.xpath('//*[@id="s-result-count"]/text()').re('\d{1,3}')
# print(type(m))
# print(m)
startnum=int(m[0])-1
endnum=int(m[1])
# print(startnum,endnum)
for n in range(startnum,endnum):#24
amzitem['body_Style']=response.xpath('//*[@id="s-result-count"]/span/span/text()').extract_first('无显示')
amzitem['link']=response.xpath('//*[@id="result_{}"]/div/div[3]/div[1]/a/@href'.format(n)).extract_first('无显示')
maker=response.xpath('//*[@id="result_{}"]/div/div[3]/div[2]/span[2]/text()'.format(n)).extract_first('无显示')
amzitem['maker']=maker
print(maker)
#cats是读取的目标，首先用正则取得year
cats=response.xpath('//*[@id="result_{}"]/div/div[3]/div[1]/a'.format(n)).re('title=".*" h')[0][7:-3]
listmodel=cats.split(' ',1)
amzitem['year']=listmodel[0]
models=listmodel[1].split(maker+' ')[1]
amzitem['model']=models
amzitem['reviews']=response.xpath('//*[@id="result_{}"]/div/div[6]/a/text()'.format(n)).extract_first('无显示')
if response.xpath('//*[@id="result_{}"]/div/div[6]/span/span/a/i[1]/span/text()'.format(n)).extract_first():
rating=response.xpath('//*[@id="result_{}"]/div/div[6]/span/span/a/i[1]/span/text()'.format(n)).extract_first()
rating=rating.split(' ')
amzitem['rating']=rating[0]
else:
amzitem['rating'] = response.xpath('//*[@id="result_{}"]/div/div[6]/span/span/a/i[1]/span/text()'.format(n)).extract_first('无显示')
yield amzitem
next_url=response.xpath('//*[@id="pagnNextLink"]/@href').extract_first()
if next_url:
yield Request('http://www.amazon.com'+next_url,callback=self.parse,dont_filter=True)

复制代码

这是主程序的代码，按编码应该是从初始请求网址列表中，先选择其中一个网址然后爬完该网址下每个下一页，然后返回爬下个列表中网址。
结果代码结果显示爬取的顺序是乱序的，这个爬会爬那个，求大神看下，问题出在哪里

最佳答案

月排行榜 / 总排行榜

wongyusing

2019-2-20 11:52:27

scrapy本来就是异步爬取的。
如果想要爬取的结果是有序的，那就给数据加个page字段。
等数据全部爬取下来后，后期再进行索引排序

跳转到最佳答案楼层

兀颜光 · 发表于 2019-2-20 10:34:37

yield scrapy.Request()

_谪仙 · 发表于 2019-2-20 11:23:01

scrapy不是同步请求的，

wongyusing · 发表于 2019-2-20 11:52:27

这个最佳答案由 wongyusing 给出，感谢 wongyusing 的回答。

单击隐藏图章

scrapy本来就是异步爬取的。
如果想要爬取的结果是有序的，那就给数据加个page字段。
等数据全部爬取下来后，后期再进行索引排序

账号		自动登录	找回密码
密码			立即注册