[已解决]爬虫返回数据错误

皓哥射金狗 · 发表于 2019-9-18 22:41:09

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我试了小甲鱼的代码，发现返回错误。错误内容：显示字典中没有”translateResult“ 这个关键字。后来我打印返回的内容，发现这个字典只有一个内容，并没有“translateResult”这个
向各位大佬指导我哪里出错了。

最佳答案

月排行榜 / 总排行榜

漫步云端〃

2019-9-19 09:21:38

楼上说的去掉_o是最最最最low的方法。

，当然也是最快的方法。
出现errorcode：50就表示你的爬虫代码被反爬虫机制识别了。所以你就GG了。
绕过反爬虫要么就学楼上的，去掉_o。但是这样是只能翻译一种语言，比如中文翻译成英文。
最好的是该去网页的JS中或者其他JSON之类的地方找到网页对反爬虫所做的算法机制，然后模拟
算法，加上模拟的header.模拟的其他东西直接欺骗。这才是最有用的。可以去搜教程。很多的。

跳转到最佳答案楼层

geen · 发表于 2019-9-18 23:53:00

1、链接里去掉 _o （js反爬）；2、data 的很多参数名都更新了，而你还是用的旧的参数，所以读取不了。

戳代码：（仅限于把英译中，如果需要改为中译英，修改data里的‘from’和‘to’参数即可）

import urllib.request
import urllib.parse
import json
content = input("请输入需要翻译的内容：")
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
head = {}
head['Referer'] = 'http://fanyi.youdao.com/'
head['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
data = {}
data['i'] = content
data['from'] = 'en'
data['to'] = 'zh-CHS'
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = '15686886836618' #会变化
data['sign'] = '212a9d342602ce07085f6ce98d37111a'#会变化
data['ts'] = '1568688683661'#会变化
data['bv'] = '7e3150ecbdf9de52dc355751b074cf60'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CLICKBUTTION'
data = urllib.parse.urlencode(data).encode('utf-8')
req = urllib.request.Request(url,data=data,headers=head)
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
#print(html)
target = json.loads(html)
print("翻译结果：%s" % (target['translateResult'][0][0]['tgt']))

复制代码

登录/注册后可看大图

漫步云端〃 · 发表于 2019-9-19 09:21:38

楼上说的去掉_o是最最最最low的方法。

，当然也是最快的方法。
出现errorcode：50就表示你的爬虫代码被反爬虫机制识别了。所以你就GG了。
绕过反爬虫要么就学楼上的，去掉_o。但是这样是只能翻译一种语言，比如中文翻译成英文。
最好的是该去网页的JS中或者其他JSON之类的地方找到网页对反爬虫所做的算法机制，然后模拟
算法，加上模拟的header.模拟的其他东西直接欺骗。这才是最有用的。可以去搜教程。很多的。

geen · 发表于 2019-9-19 10:33:42

本帖最后由 geen 于 2019-9-19 10:45 编辑

漫步云端〃发表于 2019-9-19 09:21
楼上说的去掉_o是最最最最low的方法。，当然也是最快的方法。
出现errorcode：50就表示你的爬虫 ...

你试过用算法机制去处理吗？(我已经实现了自动翻译功能（不仅仅是翻译一种语言哦））

登录/注册后可看大图

geen · 发表于 2019-9-19 12:01:27

漫步云端〃发表于 2019-9-19 09:21
楼上说的去掉_o是最最最最low的方法。，当然也是最快的方法。
出现errorcode：50就表示你的爬虫 ...

已找到教程，谢谢大神指点哦

皓哥射金狗 · 发表于 2019-9-19 12:58:15

谢谢各位知道

皓哥射金狗 · 发表于 2019-9-19 13:13:21

geen 发表于 2019-9-18 23:53
1、链接里去掉 _o （js反爬）；2、data 的很多参数名都更新了，而你还是用的旧的参数，所以读取不了。

...

我那个已经是最新的data。学到了，谢谢大佬了。

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫返回数据错误

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块