v.ki 发表于 2020-4-25 14:56:41

求助大佬scrapy框架爬取问题

本帖最后由 v.ki 于 2020-4-25 15:01 编辑

设置里加入了头,robots协议已经设置为fasle了

求助大佬为什么爬到了空气。。。应该怎么改

import json
import scrapy
from ..items import PinduoduoItem
class PinduoduoSpider(scrapy.Spider):
    name='pinduoduo'
    allowed_domains=['yangkeduo.com']
    page=1
    start_url=['http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(page)+'&size=20'
               ]
    print(start_url)
    def parse(self,response):
      
      goods_list_json=json.loads(response.body)
      goods_list=goods_list_json['goods_list']
      if not goods_list:
            return
      for i in goods_list:
            item=PinduoduoItem()
            item['goods_name']=i['goods_name']
            item['goods_id']=i['goods_id']
            yield scrapy.Request(url='http://mobile.yangkeduo.com/proxy/api/reviews/'+str(item['goods_id'])+'/list?page=1&size=10',\
                                 callback=self.get_comments,meta={'item':item})
            
      self.page+=1
   
      yield scrapy.Requests(url='http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(self.page)+'&size=20',\
                              callback=self.parse)
      
    def get_comments(self,response):
      print('哈哈哈')

qwgdmy 发表于 2020-4-25 14:56:42

第8行 start_urls   加s

wp231957 发表于 2020-4-25 15:00:28

要爬哪个网站?
代码??
啥都不提供,就是问?

v.ki 发表于 2020-4-25 15:01:26

wp231957 发表于 2020-4-25 15:00
要爬哪个网站?
代码??
啥都不提供,就是问?

拼多多,代码已经重新编辑

老八秘制 发表于 2020-4-25 16:01:40

v.ki 发表于 2020-4-25 15:01
拼多多,代码已经重新编辑

小甲鱼的scrapy太老了……不太适合现在学习,我这边有一套教程,电邮多少,我给你

v.ki 发表于 2020-4-25 16:12:42

老八秘制 发表于 2020-4-25 16:01
小甲鱼的scrapy太老了……不太适合现在学习,我这边有一套教程,电邮多少,我给你

不是小甲鱼的视频,能不能帮我看下为什么没有爬到谢谢

v.ki 发表于 2020-4-25 16:56:03

qwgdmy 发表于 2020-4-25 16:30
第8行 start_urls   加s

我丢,我真他妈笨,意外意外,谢谢了
页: [1]
查看完整版本: 求助大佬scrapy框架爬取问题