求助大佬scrapy框架爬取问题,Python交流,编程语言专区,鱼C论坛

v.ki 发表于 2020-4-25 14:56:41

求助大佬scrapy框架爬取问题

本帖最后由 v.ki 于 2020-4-25 15:01 编辑

设置里加入了头，robots协议已经设置为fasle了

求助大佬为什么爬到了空气。。。应该怎么改

import json
import scrapy
from ..items import PinduoduoItem
class PinduoduoSpider(scrapy.Spider):
name='pinduoduo'
allowed_domains=['yangkeduo.com']
page=1
start_url=['http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(page)+'&size=20'
            ]
print(start_url)
def parse(self,response):

   goods_list_json=json.loads(response.body)
   goods_list=goods_list_json['goods_list']
   if not goods_list:
         return
   for i in goods_list:
         item=PinduoduoItem()
         item['goods_name']=i['goods_name']
         item['goods_id']=i['goods_id']
         yield scrapy.Request(url='http://mobile.yangkeduo.com/proxy/api/reviews/'+str(item['goods_id'])+'/list?page=1&size=10',\
                              callback=self.get_comments,meta={'item':item})

   self.page+=1

   yield scrapy.Requests(url='http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(self.page)+'&size=20',\
                           callback=self.parse)

def get_comments(self,response):
   print('哈哈哈')

qwgdmy 发表于 2020-4-25 14:56:42

第8行 start_urls 加s

wp231957 发表于 2020-4-25 15:00:28

要爬哪个网站？
代码？？
啥都不提供，就是问？

v.ki 发表于 2020-4-25 15:01:26

wp231957 发表于 2020-4-25 15:00
要爬哪个网站？
代码？？
啥都不提供，就是问？

拼多多，代码已经重新编辑

老八秘制 发表于 2020-4-25 16:01:40

v.ki 发表于 2020-4-25 15:01
拼多多，代码已经重新编辑

小甲鱼的scrapy太老了……不太适合现在学习，我这边有一套教程，电邮多少，我给你

v.ki 发表于 2020-4-25 16:12:42

老八秘制发表于 2020-4-25 16:01
小甲鱼的scrapy太老了……不太适合现在学习，我这边有一套教程，电邮多少，我给你

不是小甲鱼的视频，能不能帮我看下为什么没有爬到谢谢

v.ki 发表于 2020-4-25 16:56:03

qwgdmy 发表于 2020-4-25 16:30
第8行 start_urls 加s

我丢，我真他妈笨，意外意外，谢谢了

页: [1]

鱼C论坛's Archiver

求助大佬scrapy框架爬取问题