鱼C论坛

 找回密码
 立即注册
查看: 3336|回复: 1

[已解决]求组关于scrapy,yield后的一个问题

[复制链接]
发表于 2023-2-7 23:42:08 | 显示全部楼层 |阅读模式
10鱼币
  1.     def parse_three(self,response):
  2.         titles = response.xpath('//li[@class=" col-4"]/a/text()').getall()[:3]
  3.         title_urls = response.xpath('//li[@class=" col-4"]/a/@href').getall()[:3]
  4.         # print(title_urls)
  5.         headers = {
  6.             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}
  7.         for url in title_urls[:3]:
  8.             # print('三级数据',url)
  9.             yield scrapy.Request(url,callback = self.parse_four,headers = headers)
  10.     def parse_four(self,response):
  11.         # print(response.text)
  12.         html = etree.HTML(response.text)
  13.         content = html.xpath('//div[@class="content"]/p/text()')
  14.         print(content)
  15.         # content = ''.join([i.strip() for i in content])
  16.         # print(content)
复制代码

如上代码,为什么我在parse_three用for循环后得到的url地址分别为(url1,url2,url3,url4)但是yield到paese_four中爬取到的数据顺序为(url4,url3,url2,url1)得到的数据顺序是反的,顺便问一下如何解决这个问题- -!~谢谢了
最佳答案
2023-2-7 23:42:09
本帖最后由 isdkz 于 2023-2-8 01:31 编辑

scrapy 是异步爬取的,每爬取一次的顺序都有可能不一样,这个是看哪个请求先返回响应的

想要他按固定的顺序得在 settings.py 加上这个设置成单并发:
  1. CONCURRENT_REQUESTS = 1
复制代码


另外,scrapy 默认是深度优先的,也就是后进先出,这个就是你那个逆序的原因
参考链接:https://cloud.tencent.com/developer/article/1904056
settings.py 加上以下代码设置成广度优先:
  1. DEPTH_PRIORITY = 1
  2. SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
  3. SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'
复制代码


或者不改变原来的配置,就加上 [::-1] 让它倒序加入队列中,
即把 for url in title_urls[:3]: 改成 for url in title_urls[:3][::-1]:

最佳答案

查看完整内容

scrapy 是异步爬取的,每爬取一次的顺序都有可能不一样,这个是看哪个请求先返回响应的 想要他按固定的顺序得在 settings.py 加上这个设置成单并发: 另外,scrapy 默认是深度优先的,也就是后进先出,这个就是你那个逆序的原因 参考链接:https://cloud.tencent.com/developer/article/1904056 settings.py 加上以下代码设置成广度优先: 或者不改变原来的配置,就加上 [::-1] 让它倒序加入队列中, 即把 for url ...

本帖被以下淘专辑推荐:

  • · scrapy|主题: 4, 订阅: 0
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2023-2-7 23:42:09 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2023-2-8 01:31 编辑

scrapy 是异步爬取的,每爬取一次的顺序都有可能不一样,这个是看哪个请求先返回响应的

想要他按固定的顺序得在 settings.py 加上这个设置成单并发:
  1. CONCURRENT_REQUESTS = 1
复制代码


另外,scrapy 默认是深度优先的,也就是后进先出,这个就是你那个逆序的原因
参考链接:https://cloud.tencent.com/developer/article/1904056
settings.py 加上以下代码设置成广度优先:
  1. DEPTH_PRIORITY = 1
  2. SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
  3. SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'
复制代码


或者不改变原来的配置,就加上 [::-1] 让它倒序加入队列中,
即把 for url in title_urls[:3]: 改成 for url in title_urls[:3][::-1]:
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-25 00:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表