求助大佬scrapy框架爬取问题
本帖最后由 v.ki 于 2020-4-25 15:01 编辑设置里加入了头,robots协议已经设置为fasle了
求助大佬为什么爬到了空气。。。应该怎么改
import json
import scrapy
from ..items import PinduoduoItem
class PinduoduoSpider(scrapy.Spider):
name='pinduoduo'
allowed_domains=['yangkeduo.com']
page=1
start_url=['http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(page)+'&size=20'
]
print(start_url)
def parse(self,response):
goods_list_json=json.loads(response.body)
goods_list=goods_list_json['goods_list']
if not goods_list:
return
for i in goods_list:
item=PinduoduoItem()
item['goods_name']=i['goods_name']
item['goods_id']=i['goods_id']
yield scrapy.Request(url='http://mobile.yangkeduo.com/proxy/api/reviews/'+str(item['goods_id'])+'/list?page=1&size=10',\
callback=self.get_comments,meta={'item':item})
self.page+=1
yield scrapy.Requests(url='http://mobile.yangkeduo.com/proxy/api/api/alexa/goods/hub?pdduid=0&list_update_time=true&hs_version=2&wrt_type=1&'+'page='+str(self.page)+'&size=20',\
callback=self.parse)
def get_comments(self,response):
print('哈哈哈')
第8行 start_urls 加s 要爬哪个网站?
代码??
啥都不提供,就是问? wp231957 发表于 2020-4-25 15:00
要爬哪个网站?
代码??
啥都不提供,就是问?
拼多多,代码已经重新编辑 v.ki 发表于 2020-4-25 15:01
拼多多,代码已经重新编辑
小甲鱼的scrapy太老了……不太适合现在学习,我这边有一套教程,电邮多少,我给你 老八秘制 发表于 2020-4-25 16:01
小甲鱼的scrapy太老了……不太适合现在学习,我这边有一套教程,电邮多少,我给你
不是小甲鱼的视频,能不能帮我看下为什么没有爬到谢谢 qwgdmy 发表于 2020-4-25 16:30
第8行 start_urls 加s
我丢,我真他妈笨,意外意外,谢谢了
页:
[1]