网易翻译爬虫
为什么我按照小甲鱼说的把data里的数据全都放进字典里去了,但是运行就报{"errorCode":50}。。。求大神看一眼。。import urllib.request
import urllib.parse
url = 'https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
data = {}
data['i'] = '我是你妈妈'
data['smartresult'] = 'dict'
data ['client'] = 'fanyideskweb'
data ['salt']='16508879090005'
data ['sign']= '67eada1d1767da800db1c0428a8483eb'
data ['lts']= '1650887909000'
data ['bv']= 'ac3968199d18b7367b2479d1f4938ac2'
data ['doctype']= 'json'
data ['version']= '2.1'
data ['keyfrom']= 'fanyi.web'
data ['action']=' FY_BY_REALTlME'
data ['from'] = 'AUTO'
data ['to']= 'AUTO'
data = urllib.parse.urlencode(data).encode('ascii')
response = urllib.request.urlopen(url , data)
html = response.read().decode('ascii')
print(html)
import urllib.request
import urllib.parse
url = 'https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule' # 把 _o 去掉
data = {}
data['i'] = '我是你妈妈'
data['smartresult'] = 'dict'
data ['client'] = 'fanyideskweb'
data ['salt']='16508879090005'
data ['sign']= '67eada1d1767da800db1c0428a8483eb'
data ['lts']= '1650887909000'
data ['bv']= 'ac3968199d18b7367b2479d1f4938ac2'
data ['doctype']= 'json'
data ['version']= '2.1'
data ['keyfrom']= 'fanyi.web'
data ['action']=' FY_BY_REALTlME'
data ['from'] = 'AUTO'
data ['to']= 'AUTO'
data = urllib.parse.urlencode(data).encode('ascii')
response = urllib.request.urlopen(url , data)
html = response.read().decode() # 去掉 'ascii'
print(html) isdkz 发表于 2022-4-25 20:30
可是我刚看了下 我检索里的Url 的确是带了那个o的啊。。那个o是啥意思啊
https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule Victor0321 发表于 2022-4-25 21:03
可是我刚看了下 我检索里的Url 的确是带了那个o的啊。。那个o是啥意思啊
https://fanyi.youdao.com/tr ...
o 应该是 online 的意思,那个应该是在线接口,
你不要光看 url ,http 可不只有 url 这一部分,还有请求头,请求体,
你既然要保证那个带 o 的可以,你就得复刻它的请求,请求体有了,还差请求头,
那个在线接口你加一个 cookie 就可以了,
而不带 o 的才是它的离线接口 isdkz 发表于 2022-4-25 21:13
o 应该是 online 的意思,那个应该是在线接口,
你不要光看 url ,http 可不只有 url 这一部分,还 ...
我发现有的直接复制那个url就可以。。。但有的就不行。。有什么方法能快速的识别哪些才是我真正需要然后输到python里爬虫用的么。。。
https://www.google-analytics.com/j/collect?v=1&_v=j96&a=259869397&t=pageview&_s=1&dl=https%3A%2F%2Fwww.w3school.com.cn%2Fpython%2Fpython_json.asp&dr=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DaSKM0qtC2PJdg8jGH0XP6HZ8ZlF9pDlg93g045JwDxECkhB5pzOykeV4YPFZv5w2uJ0Jypgk0Kr3hHRgjtvxVq%26wd%3D%26eqid%3Dd1e62aaa0001ef840000000362669ecb&ul=en&de=UTF-8&dt=Python%20JSON&sd=24-bit&sr=1366x768&vp=272x640&je=0&_u=QACAAUABAAAAAC~&jid=842582087&gjid=256533092&cid=1872226281.1650892790&tid=UA-878633-1&_gid=1267274661.1650892790&_r=1>m=2ou4k0&z=487883916 Victor0321 发表于 2022-4-25 21:31
我发现有的直接复制那个url就可以。。。但有的就不行。。有什么方法能快速的识别哪些才是我真正需要然后 ...
没什么办法,纯靠经验,不同的网站反爬不一样,
请求头的反爬主要是 user-agent、referer、cookies 这几个字段,
有一些还会根据 origin isdkz 发表于 2022-4-25 21:34
没什么办法,纯靠经验,不同的网站反爬不一样,
请求头的反爬主要是 user-agent、referer、cookies 这 ...
{:10_257:}我感觉好难 。。。
user-agent、referer、cookies一般就是这些开头的字段都要去掉么?还是。。。 本帖最后由 isdkz 于 2022-4-25 21:47 编辑
Victor0321 发表于 2022-4-25 21:45
我感觉好难 。。。
user-agent、referer、cookies一般就是这些开头的字段都要去掉么? ...
一般要添加这些头部信息来访问绕过反爬机制,这也不难,跟着一些比较好的教程来去学习就好了,
崔庆才的书不错,你可以去看看 isdkz 发表于 2022-4-25 21:46
一般要添加这些头部信息来访问绕过反爬机制,这也不难,跟着一些比较好的教程来去学习就好了,
崔庆 ...
我其实是想往AI方面走 。。。 不知道爬虫这一块 需要不需要花费太多时间深究 Victor0321 发表于 2022-4-25 21:51
我其实是想往AI方面走 。。。 不知道爬虫这一块 需要不需要花费太多时间深究
看你有没有耐心了,心急也吃不了热豆腐 isdkz 发表于 2022-4-25 21:53
看你有没有耐心了,心急也吃不了热豆腐
emmmm 慢慢来,但是现在就是在花时间学。。。 刚好一个月差不多。。 整体好像都懂就是没串起来过 {:5_109:} hornwong 发表于 2022-4-26 00:14
啊?这是水帖的么
页:
[1]