[已解决]爬虫被网站反爬了，该如何解决

TMfeixiang · 发表于 2018-4-3 14:56:41

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

代码如下：
import urllib.request
import time

url="https://junglescoutpro.herokuapp.com/api/v1/est_sales"
rank="1"
category="Beauty+%26+Personal+Care"
store="us"
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"}
a=1

while int(rank)<101:
url=url+"?"+"rank="+rank+"&"+"category="+category+"&"+"store="+store
req=urllib.request.Request(url,headers=header)
response=urllib.request.urlopen(req)
html=response.read()
print(html)
a+=1
rank=str(a)
time.sleep(5)

我想要爬取“https://www.junglescout.com/estimator/”网站的1-100的销售数据，但是返回的只有100行“b'{"status":false,"code":0,"message":"Request not allowed!"}'”这个东西，求大神赐教解决思路。它是怎么判断我是通过爬虫访问的？

最佳答案

月排行榜 / 总排行榜

ba21

2018-4-3 16:06:52

TMfeixiang 发表于 2018-4-3 16:01
大佬您好，您的意思是说要查看那个网页的代码是吗？不过那代码太多了，看的头皮有点发麻，大佬能不能指点 ...

还是刚刚回复那句话，再加一句，练习先找能爬的网站练

跳转到最佳答案楼层

ba21 · 发表于 2018-4-3 15:15:24

分析网页数据。
不是一言2语就可以说得清。慢慢学

TMfeixiang · 发表于 2018-4-3 16:01:29

ba21 发表于 2018-4-3 15:15
分析网页数据。
不是一言2语就可以说得清。慢慢学

大佬您好，您的意思是说要查看那个网页的代码是吗？不过那代码太多了，看的头皮有点发麻，大佬能不能指点一下怎么样去分析一个网站的代码呢？共分为哪些模块，哪些模块是必须的，哪些是可选的？这样一个模块一个模块的去看的话就比较简单一点，更容易上手。

TMfeixiang · 发表于 2018-4-3 16:03:17

还有，为什么我已经改过头香了，为什么还是这只乌龟啊？

ba21 · 发表于 2018-4-3 16:06:52

TMfeixiang 发表于 2018-4-3 16:01
大佬您好，您的意思是说要查看那个网页的代码是吗？不过那代码太多了，看的头皮有点发麻，大佬能不能指点 ...

还是刚刚回复那句话，再加一句，练习先找能爬的网站练

账号		自动登录	找回密码
密码			立即注册