[已解决]爬网页的数据报错，麻烦各位指导下

花生豆豆 · 发表于 2018-6-30 15:31:29

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

爬网页的数据报错，麻烦各位指导下

爬取的网页是：https://v.taobao.com/v/content/l ... XM&catetype=704

只想爬下淘女郎的ID和对应的照片就可以了

已经根据网络工具查看到，在这个URL（get而非post不需要data内容）返回的json文件里面，但是urlopen之后read以后提示是这样的：
jsonp74({"status":1022,"data":{"error":"非法请求"},"server":"matrixmission010150160134.eu13","msg":"当前账号没有对应操作的权限，请检查是否开通了需求方账号."});
人初学，希望各位大大指导下

代码：
import urllib.request
import re
import random
import urllib.parse
import json
import requests

def getInfo(url):
req = urllib.request.Request(url)
req.add_header = ('user-agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
response = urllib.request.urlopen(req)

html = response.read().decode('utf-8')

print(html)

运行结果：
url = 'https://v.taobao.com/micromission/req/selectCreatorV3.do?cateType=704&_ksTS=1530343128779_73&callback=jsonp74&&_output_charset=UTF-8&_input_charset=UTF-8'
>>> getInfo(url)

jsonp74({"status":1022,"data":{"error":"非法请求"},"server":"matrixmission010150160134.eu13","msg":"当前账号没有对应操作的权限，请检查是否开通了需求方账号."});
>>>

最佳答案

月排行榜 / 总排行榜

chakyam

2018-7-1 10:44:43

我试过了可以啊

跳转到最佳答案楼层

simplerjiang · 发表于 2018-6-30 17:18:41

可以看到，网站已经识别出你是爬虫了。
百分之八十的可能是这个请求需要加cookie
剩下百分之十是你的网页头不正确。
最后百分之十是你输入的参数是js计算出来的，是随机值。

chakyam · 发表于 2018-6-30 19:11:14

header里加个referer试试

黄金猫 · 发表于 2018-6-30 22:10:30

朋友，试试selenium，即时你用re.request采集到了网页，返回的网页和你用“检查”看到的网页不一样，因为返回的网页没有加载js的不完整版，“检查”看到的网页是加载了js文件的完整版，selenium可直接看到完整版，对淘宝尤其好用。

花生豆豆 · 发表于 2018-7-1 01:05:22

chakyam 发表于 2018-6-30 19:11
header里加个referer试试

还是不行，我试下4L的方法吧，多谢

花生豆豆 · 发表于 2018-7-1 01:07:39

黄金猫发表于 2018-6-30 22:10
朋友，试试selenium，即时你用re.request采集到了网页，返回的网页和你用“检查”看到的网页不一样，因为返 ...

好的，我试下这个模块

花生豆豆 · 发表于 2018-7-1 01:08:29

simplerjiang 发表于 2018-6-30 17:18
可以看到，网站已经识别出你是爬虫了。
百分之八十的可能是这个请求需要加cookie
剩下百分之十是你的网页 ...

多谢，我试试别的方法

chakyam · 发表于 2018-7-1 10:44:43

这个最佳答案由 chakyam 给出，感谢 chakyam 的回答。

单击隐藏图章

我试过了可以啊

花生豆豆 · 发表于 2018-7-1 22:25:15

chakyam 发表于 2018-7-1 10:44
我试过了可以啊

多谢哈，估计是我哪里敲错了吧，谢谢

花生豆豆 · 发表于 2018-7-1 22:32:53

chakyam 发表于 2018-7-1 10:44
我试过了可以啊

你好，请教下requests.get()和urllib.request.urlopen的区别是什么，多谢

chakyam · 发表于 2018-7-1 22:42:38

花生豆豆发表于 2018-7-1 22:32
你好，请教下requests.get()和urllib.request.urlopen的区别是什么，多谢

模块不同，urllib现在没怎么用过了，不清楚

花生豆豆 · 发表于 2018-7-1 23:04:25

chakyam 发表于 2018-7-1 22:42
模块不同，urllib现在没怎么用过了，不清楚

感谢

h472591847 · 发表于 2018-12-15 13:48:52

参数给个refer 直接通过。亲测有效

earth灯火阑珊 · 发表于 2019-1-7 21:07:42

不能直接访问那个网站，这是跨域请求，需要在头部加上原始的地址

账号		自动登录	找回密码
密码			立即注册

[已解决]爬网页的数据报错，麻烦各位指导下

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块