鱼C论坛

 找回密码
 立即注册
查看: 1616|回复: 6

[已解决]求助大佬scrapy框架爬取问题

[复制链接]
发表于 2020-4-25 14:56:41 | 显示全部楼层 |阅读模式
15鱼币
本帖最后由 v.ki 于 2020-4-25 15:01 编辑

设置里加入了头,robots协议已经设置为fasle了

求助大佬为什么爬到了空气。。。应该怎么改
批注 2020-04-25 145448.png
  1. import json
  2. import scrapy
  3. from ..items import PinduoduoItem
  4. class PinduoduoSpider(scrapy.Spider):
  5.     name='pinduoduo'
  6.     allowed_domains=['yangkeduo.com']
  7.     page=1
  8.     start_url=['http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(page)+'&size=20'
  9.                ]
  10.     print(start_url)
  11.     def parse(self,response):
  12.         
  13.         goods_list_json=json.loads(response.body)
  14.         goods_list=goods_list_json['goods_list']
  15.         if not goods_list:
  16.             return
  17.         for i in goods_list:
  18.             item=PinduoduoItem()
  19.             item['goods_name']=i['goods_name']
  20.             item['goods_id']=i['goods_id']
  21.             yield scrapy.Request(url='http://mobile.yangkeduo.com/proxy/api/reviews/'+str(item['goods_id'])+'/list?page=1&size=10',\
  22.                                  callback=self.get_comments,meta={'item':item})
  23.             
  24.         self.page+=1
  25.    
  26.         yield scrapy.Requests(url='http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(self.page)+'&size=20',\
  27.                               callback=self.parse)
  28.         
  29.     def get_comments(self,response):
  30.         print('哈哈哈')
复制代码
最佳答案
2020-4-25 14:56:42
第8行 start_urls   加s

最佳答案

查看完整内容

第8行 start_urls 加s
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-4-25 14:56:42 | 显示全部楼层    本楼为最佳答案   
第8行 start_urls   加s
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-4-25 15:00:28 From FishC Mobile | 显示全部楼层
要爬哪个网站?
代码??
啥都不提供,就是问?
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-4-25 15:01:26 | 显示全部楼层
wp231957 发表于 2020-4-25 15:00
要爬哪个网站?
代码??
啥都不提供,就是问?

拼多多,代码已经重新编辑
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-4-25 16:01:40 | 显示全部楼层
v.ki 发表于 2020-4-25 15:01
拼多多,代码已经重新编辑


小甲鱼的scrapy太老了……不太适合现在学习,我这边有一套教程,电邮多少,我给你
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-4-25 16:12:42 | 显示全部楼层
老八秘制 发表于 2020-4-25 16:01
小甲鱼的scrapy太老了……不太适合现在学习,我这边有一套教程,电邮多少,我给你

不是小甲鱼的视频,能不能帮我看下为什么没有爬到谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-4-25 16:56:03 | 显示全部楼层
qwgdmy 发表于 2020-4-25 16:30
第8行 start_urls   加s

我丢,我真他妈笨,意外意外,谢谢了
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-18 04:45

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表