scrapy 爬取数据无顺序问题

fengse1988 · 发表于 2019-1-22 10:39:40

您需要登录才可以下载或查看，没有账号？立即注册

x

初学爬虫，照葫芦画瓢，用scrapy爬取廖雪峰大大的python教程，但是爬取的数据完全没有顺序啊！！（scrapy爬取为异步处理，但是这个没顺序完全没法看啊

）如何处理啊！！！spider代码如下：

# -*- coding: utf-8 -*-
import scrapy
class Tt2Spider(scrapy.Spider):
name = 'tt2'
allowed_domains = ['liaoxuefeng.com']
start_urls = ['https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000']
def parse(self, response):
tr_list = response.xpath("//ul[@id='x-wiki-index']/div/div/a")
for tr in tr_list:
item = {}
item['href'] = tr.xpath("./@href").extract_first()
item['title'] = tr.xpath("./text()").extract_first()
next_url = 'https://www.liaoxuefeng.com' + item['href']
yield scrapy.Request(
next_url,
callback=self.parse2,
meta={'item': item}
)
def parse2(self, response):
item = response.meta["item"]
item['content'] = response.xpath("//div[@class='x-wiki-content x-main-content']/p/text()").extract()
print(item)

复制代码

fengse1988 · 发表于 2019-1-22 17:24:50

具体出现排序问题在yield item之后，pipeline里的ITEM是无序的。不知道咋处理。。

wongyusing · 发表于 2019-1-23 00:36:35

利用字典加一个索引让其有序就行了

fengse1988 · 发表于 2019-1-29 10:51:56

wongyusing 发表于 2019-1-23 00:36
利用字典加一个索引让其有序就行了

这个如何加索引啊。。。不是很懂。。

账号		自动登录	找回密码
密码			立即注册