鱼C论坛

 找回密码
 立即注册
查看: 1759|回复: 4

这个爬虫在本地运行正常,在服务就运行失败

[复制链接]
发表于 2017-12-4 18:23:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
首先说一下情况,这是一个唯品会的爬虫,就是一个 API 接口
然后我在本地运行爬虫是能够得到 json 信息的,也就是跟网页显示的一样,但是我把爬虫放到服务器上面运行就发现请求得到的是一个403网页,
同样是爬虫,为什么会这样?这难道是被反爬虫了么?
(本地系统是win10,服务器是Ubuntu)
爬虫代码贴出来
  1. class VIP_WordSearch(object):
  2.     '''唯品会搜索'''
  3.     def __init__(self,word):
  4.         self.word = word
  5.         self.baseurl = 'https://category.vip.com/ajax/getSuggest.php'
  6.         self.headers = {
  7.             'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
  8.             'Host':'category.vip.com',
  9.             'Referer':'https://category.vip.com/',
  10.         }

  11.     def get_results(self):
  12.         t = time.time()
  13.         info = {
  14.             'callback':'searchSuggestions',
  15.             'warehouse':'VIP_NH',
  16.             'keyword':self.word,
  17.             '_':str(int(t*1000)),
  18.         }
  19.         html = requests.get(self.baseurl, params=info, headers=self.headers).text
  20.         data = re.findall('search.*?\(({.*})\)',html)
  21.         if data:
  22.             data = data[0]
  23.         else:
  24.             data = None
  25.         try:
  26.             data = json.loads(data)
  27.             results = data.get('data')
  28.             last_results = []
  29.             for each in results:
  30.                 product = {}
  31.                 product['word'] = each.get('word')
  32.                 product['goodscount'] = each.get('goodsCount')
  33.                 wordlist = each.get('props')
  34.                 if wordlist:
  35.                     words = ','.join([w.get('name') for w in wordlist])
  36.                     product['words'] = words
  37.                 else:
  38.                     product['words'] = ''
  39.                 last_results.append(product)
  40.         except:
  41.             last_results = None
  42.         return last_results
复制代码


不同的地方在这里html = requests.get(self.baseurl, params=info, headers=self.headers).text
就是这个html,本地得到的是这样的网页https://category.vip.com/ajax/ge ... amp;_=1512382930556请求得到的,是一个类似的json格式
但是服务器上面就是是返回一个403

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-12-4 18:42:07 | 显示全部楼层
补充一点,我在虚拟机上面是可以运行成功的,虚拟机也是Ubuntu
这种情况还是第一次见
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-4 19:41:55 | 显示全部楼层
(Windows NT 10.0; Win64; x64; rv:57.0)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-12-4 20:06:34 | 显示全部楼层
SixPy 发表于 2017-12-4 19:41
(Windows NT 10.0; Win64; x64; rv:57.0)

跟请求头应该没问题,因为我用虚拟机也是可以请求到的,虚拟机就是Ubuntu系统,系统跟我服务器一样,服务器和虚拟机唯一不同的应该就是IP地址
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-4 21:02:57 | 显示全部楼层
gopythoner 发表于 2017-12-4 20:06
跟请求头应该没问题,因为我用虚拟机也是可以请求到的,虚拟机就是Ubuntu系统,系统跟我服务器一样,服务 ...

换个代理
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-26 08:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表