[已解决]求组关于scrapy，yield后的一个问题

8916616 · 发表于 2023-2-7 23:42:08

    def parse_three(self,response):
        titles = response.xpath('//li[@class=" col-4"]/a/text()').getall()[:3]
        title_urls = response.xpath('//li[@class=" col-4"]/a/@href').getall()[:3]
        # print(title_urls)
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
        for url in title_urls[:3]:
            # print('三级数据',url)
            yield scrapy.Request(url,callback = self.parse_four,headers = headers)
    def parse_four(self,response):
        # print(response.text)
        html = etree.HTML(response.text)
        content = html.xpath('//div[@class="content"]/p/text()')
        print(content)
        # content = ''.join([i.strip() for i in content])
        # print(content)

如上代码，为什么我在parse_three用for循环后得到的url地址分别为（url1，url2,url3,url4）但是yield到paese_four中爬取到的数据顺序为（url4,url3,url2,url1）得到的数据顺序是反的，顺便问一下如何解决这个问题- -！~谢谢了

最佳答案

月排行榜 / 总排行榜

isdkz

2023-2-7 23:42:09

本帖最后由 isdkz 于 2023-2-8 01:31 编辑

scrapy 是异步爬取的，每爬取一次的顺序都有可能不一样，这个是看哪个请求先返回响应的

想要他按固定的顺序得在 settings.py 加上这个设置成单并发：
CONCURRENT_REQUESTS = 1

另外，scrapy 默认是深度优先的，也就是后进先出，这个就是你那个逆序的原因
参考链接：https://cloud.tencent.com/developer/article/1904056
settings.py 加上以下代码设置成广度优先：
DEPTH_PRIORITY = 1 SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

或者不改变原来的配置，就加上 [::-1] 让它倒序加入队列中，
即把 for url in title_urls[:3]: 改成 for url in title_urls[:3][::-1]:

跳转到最佳答案楼层

isdkz · 发表于 2023-2-7 23:42:09

本帖最后由 isdkz 于 2023-2-8 01:31 编辑

scrapy 是异步爬取的，每爬取一次的顺序都有可能不一样，这个是看哪个请求先返回响应的

想要他按固定的顺序得在 settings.py 加上这个设置成单并发：
CONCURRENT_REQUESTS = 1

另外，scrapy 默认是深度优先的，也就是后进先出，这个就是你那个逆序的原因
参考链接：https://cloud.tencent.com/developer/article/1904056
settings.py 加上以下代码设置成广度优先：
DEPTH_PRIORITY = 1 SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

或者不改变原来的配置，就加上 [::-1] 让它倒序加入队列中，
即把 for url in title_urls[:3]: 改成 for url in title_urls[:3][::-1]:

账号		自动登录	找回密码
密码			立即注册

[已解决]求组关于scrapy，yield后的一个问题

最佳答案

本帖被以下淘专辑推荐: