[已解决]关于爬虫的小问题

Qking · 发表于 2018-2-11 10:57:55

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Qking 于 2018-2-11 11:20 编辑

先上代码，注释掉的部分是实在没办法，按小甲鱼老师的书上源代码打的试了一下,而且参数里面为什么没有'ue','type','xmlVersion'

import urllib.request as re
import urllib.parse as par
import json
content = input("请输入需要翻译的内容：")
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
#url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=http://www.youdao.com/"
data = {}
head = {}
head['Referer'] = 'http://fanyi.youdao.com/'
head['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'
data['from'] = 'AUTO'
data['doctype'] = 'json'
#data['type'] = 'AUTO'
#data['xmlVersion'] = '1.6'
#data['ue'] = 'UTF-8'
data['version'] = '2.1'
data['key.from'] = 'fanyi.web'
data['typoResult'] = 'false'
#data['typoResult'] = 'true'
data['to'] = 'AUTO'
data['i'] = content
data = par.urlencode(data).encode('utf - 8')
req = re.Request(url,data,head)
response = re.urlopen(req)
html = response.read().decode('utf - 8')
target = json.loads(html)
print("翻译的结果：%s"%(target['translateResult'][0][0]['tgt']))

复制代码

最佳答案

°蓝鲤歌蓝

2018-2-11 11:08:31

复制代码

把里面的 '_o' 去掉。

新手·ing · 发表于 2018-2-11 11:07:35

def translator(txt):
import json
import urllib.request
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&sessionFrom=https://www.baidu.com/link'
data = {'from': 'AUTO', 'to': 'AUTO', 'smartresult': 'dict', 'client': 'fanyideskweb', 'salt': '1500092479607',
'sign': 'c98235a85b213d482b8e65f6b1065e26', 'doctype': 'json', 'version': '2.1', 'keyfrom': 'fanyi.web',
'action': 'FY_BY_CL1CKBUTTON', 'typoResult': 'true', 'i': txt}
data = urllib.parse.urlencode(data).encode('utf-8')
wy = urllib.request.urlopen(url, data)
html = wy.read().decode('utf-8')
ta = json.loads(html)
return ta['translateResult'][0][0]['tgt']

复制代码

有道也很难啊，小甲鱼老师带起了一波人爬它，所以他改了，这个应该能用。

°蓝鲤歌蓝 · 发表于 2018-2-11 11:08:31

复制代码

把里面的 '_o' 去掉。

Qking · 发表于 2018-2-11 11:24:44

°蓝鲤歌蓝发表于 2018-2-11 11:08
把里面的 '_o' 去掉。

。。。为什么居然真的可以了。。。可是请求网址里面有'_o'啊...

°蓝鲤歌蓝 · 发表于 2018-2-11 11:26:58

Qking 发表于 2018-2-11 11:24
。。。为什么居然真的可以了。。。可是请求网址里面有'_o'啊...

不好意思，原因一直没找到，我觉得是有道的加密措施。
楼上大佬的代码也是网址里面没有 '_o' 才能爬取。

Qking · 发表于 2018-2-11 11:30:28

新手·ing 发表于 2018-2-11 11:07
有道也很难啊，小甲鱼老师带起了一波人爬它，所以他改了，这个应该能用。

大佬你知道为什么去掉url里面的'_o'就可以了吗？

新手·ing · 发表于 2018-2-11 11:32:32

Qking 发表于 2018-2-11 11:30
大佬你知道为什么去掉url里面的'_o'就可以了吗？

不给我最佳。

新手·ing · 发表于 2018-2-11 11:33:15

Qking 发表于 2018-2-11 11:30
大佬你知道为什么去掉url里面的'_o'就可以了吗？

这个。。。
就是上面那个大佬的解释，有道的加密，后来被破解了，解法就是去掉_o。

新手·ing · 发表于 2018-2-11 11:33:45

Qking 发表于 2018-2-11 11:30
大佬你知道为什么去掉url里面的'_o'就可以了吗？

这个。。
就是上面那个大佬的解释，加密了。

账号		自动登录	找回密码
密码			立即注册