网易翻译爬虫,萌新交流区,萌新训练营,鱼C论坛

Victor0321 发表于 2022-4-25 20:29:17

网易翻译爬虫

为什么我按照小甲鱼说的把data里的数据全都放进字典里去了，但是运行就报{"errorCode":50}。。。求大神看一眼。。

import urllib.request
import urllib.parse
url = 'https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
data = {}

data['i'] = '我是你妈妈'
data['smartresult'] = 'dict'
data ['client'] = 'fanyideskweb'
data ['salt']='16508879090005'
data ['sign']= '67eada1d1767da800db1c0428a8483eb'
data ['lts']= '1650887909000'
data ['bv']= 'ac3968199d18b7367b2479d1f4938ac2'
data ['doctype']= 'json'
data ['version']= '2.1'
data ['keyfrom']= 'fanyi.web'
data ['action']=' FY_BY_REALTlME'
data ['from'] = 'AUTO'
data ['to']= 'AUTO'
data = urllib.parse.urlencode(data).encode('ascii')

response = urllib.request.urlopen(url , data)
html = response.read().decode('ascii')
print(html)

isdkz 发表于 2022-4-25 20:30:30

import urllib.request
import urllib.parse
url = 'https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule' # 把 _o 去掉
data = {}

data['i'] = '我是你妈妈'
data['smartresult'] = 'dict'
data ['client'] = 'fanyideskweb'
data ['salt']='16508879090005'
data ['sign']= '67eada1d1767da800db1c0428a8483eb'
data ['lts']= '1650887909000'
data ['bv']= 'ac3968199d18b7367b2479d1f4938ac2'
data ['doctype']= 'json'
data ['version']= '2.1'
data ['keyfrom']= 'fanyi.web'
data ['action']=' FY_BY_REALTlME'
data ['from'] = 'AUTO'
data ['to']= 'AUTO'
data = urllib.parse.urlencode(data).encode('ascii')

response = urllib.request.urlopen(url , data)
html = response.read().decode() # 去掉 'ascii'
print(html)

Victor0321 发表于 2022-4-25 21:03:14

isdkz 发表于 2022-4-25 20:30

可是我刚看了下我检索里的Url 的确是带了那个o的啊。。那个o是啥意思啊

https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule

isdkz 发表于 2022-4-25 21:13:17

Victor0321 发表于 2022-4-25 21:03
可是我刚看了下我检索里的Url 的确是带了那个o的啊。。那个o是啥意思啊

https://fanyi.youdao.com/tr ...

o 应该是 online 的意思，那个应该是在线接口，

你不要光看 url ，http 可不只有 url 这一部分，还有请求头，请求体，

你既然要保证那个带 o 的可以，你就得复刻它的请求，请求体有了，还差请求头，

那个在线接口你加一个 cookie 就可以了，

而不带 o 的才是它的离线接口

Victor0321 发表于 2022-4-25 21:31:39

isdkz 发表于 2022-4-25 21:13
o 应该是 online 的意思，那个应该是在线接口，

你不要光看 url ，http 可不只有 url 这一部分，还 ...

我发现有的直接复制那个url就可以。。。但有的就不行。。有什么方法能快速的识别哪些才是我真正需要然后输到python里爬虫用的么。。。

https://www.google-analytics.com/j/collect?v=1&_v=j96&a=259869397&t=pageview&_s=1&dl=https%3A%2F%2Fwww.w3school.com.cn%2Fpython%2Fpython_json.asp&dr=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DaSKM0qtC2PJdg8jGH0XP6HZ8ZlF9pDlg93g045JwDxECkhB5pzOykeV4YPFZv5w2uJ0Jypgk0Kr3hHRgjtvxVq%26wd%3D%26eqid%3Dd1e62aaa0001ef840000000362669ecb&ul=en&de=UTF-8&dt=Python%20JSON&sd=24-bit&sr=1366x768&vp=272x640&je=0&_u=QACAAUABAAAAAC~&jid=842582087&gjid=256533092&cid=1872226281.1650892790&tid=UA-878633-1&_gid=1267274661.1650892790&_r=1&gtm=2ou4k0&z=487883916

isdkz 发表于 2022-4-25 21:34:31

Victor0321 发表于 2022-4-25 21:31
我发现有的直接复制那个url就可以。。。但有的就不行。。有什么方法能快速的识别哪些才是我真正需要然后 ...

没什么办法，纯靠经验，不同的网站反爬不一样，

请求头的反爬主要是 user-agent、referer、cookies 这几个字段，

有一些还会根据 origin

Victor0321 发表于 2022-4-25 21:45:06

isdkz 发表于 2022-4-25 21:34
没什么办法，纯靠经验，不同的网站反爬不一样，

请求头的反爬主要是 user-agent、referer、cookies 这 ...

{:10_257:}我感觉好难。。。

user-agent、referer、cookies一般就是这些开头的字段都要去掉么？还是。。。

isdkz 发表于 2022-4-25 21:46:25

本帖最后由 isdkz 于 2022-4-25 21:47 编辑

Victor0321 发表于 2022-4-25 21:45
我感觉好难。。。

user-agent、referer、cookies一般就是这些开头的字段都要去掉么？ ...

一般要添加这些头部信息来访问绕过反爬机制，这也不难，跟着一些比较好的教程来去学习就好了，

崔庆才的书不错，你可以去看看

Victor0321 发表于 2022-4-25 21:51:41

isdkz 发表于 2022-4-25 21:46
一般要添加这些头部信息来访问绕过反爬机制，这也不难，跟着一些比较好的教程来去学习就好了，

崔庆 ...

我其实是想往AI方面走。。。不知道爬虫这一块需要不需要花费太多时间深究

isdkz 发表于 2022-4-25 21:53:01

Victor0321 发表于 2022-4-25 21:51
我其实是想往AI方面走。。。不知道爬虫这一块需要不需要花费太多时间深究

看你有没有耐心了，心急也吃不了热豆腐

Victor0321 发表于 2022-4-25 21:56:34

isdkz 发表于 2022-4-25 21:53
看你有没有耐心了，心急也吃不了热豆腐

emmmm 慢慢来，但是现在就是在花时间学。。。刚好一个月差不多。。整体好像都懂就是没串起来过

hornwong 发表于 2022-4-26 00:14:27

{:5_109:}

Victor0321 发表于 2022-4-26 00:16:11

hornwong 发表于 2022-4-26 00:14

啊？这是水帖的么

页: [1]

鱼C论坛's Archiver

网易翻译爬虫