鱼C论坛

 找回密码
 立即注册
查看: 3540|回复: 12

[已解决]求助第55课爬虫有道翻译,发现多了salt,sign,ts

[复制链接]
发表于 2020-2-8 12:33:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
学习第55课爬虫有道翻译,发现多了salt,sign,ts
求助啊大佬怎么解呢?百度下来这是反爬虫?
请求正文如下:
   action: FY_BY_CLICKBUTTION
   bv: 908078567e4fa99e9a8b55bb7ca876a4
   client: fanyideskweb
   doctype: json
   from: AUTO
   i: fish
   keyfrom: fanyi.web
   salt: 15811353050948
   sign: 1243ea2509dd83695dbd862e12181df2
   smartresult: dict
   to: AUTO
   ts: 1581135305094
   version: 2.1
最佳答案
2020-2-8 13:47:42
stone_qaq 发表于 2020-2-8 13:34
拜读代码
能说下sign和version函数在进行什么操作吗
build_version用在哪里 了呢是返回给version了吗

根据 有道 的 javascript 逻辑,生成 data 中的 sign, salt, ts, bv
这是 youdao 中简单的防爬机制。

build_version 用在31行, data['bv']
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-8 12:39:38 | 显示全部楼层
本帖最后由 一个账号 于 2020-2-8 13:08 编辑

[b]有一些可变的是不用写的。
  1. # -*-coding:utf-8-*-
  2. import urllib.request
  3. import urllib.parse
  4. import json
  5. import time
  6. import easygui

  7. from tkinter import *
  8. from tkinter import ttk

  9. def translate(event=None):
  10.     content = et.get()
  11.     url = r'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

  12.     data = {}
  13.     data['i'] = content
  14.     data['from'] = "AUTO"
  15.     data['to'] = "AUTO"
  16.     data['smartresult'] = 'dict'
  17.     data['client'] = 'fanyideskweb'
  18.     data['doctype'] = 'json'
  19.     data['version'] = '2.1'
  20.     data['keyfrom'] = 'fanyi.web'
  21.     data['action'] = 'FY_BY_CLICKBUTTION'
  22.    
  23.     data = urllib.parse.urlencode(data).encode('utf-8')

  24.     req = urllib.request.Request(url, data)
  25.     req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36')

  26.     response = urllib.request.urlopen(req)
  27.     html = response.read().decode('utf-8')

  28.     target = json.loads(html)
  29.     target = target['translateResult'][0][0]['tgt']

  30.     var.set(target)
  31.     return target

  32. root = Tk()
  33. root.title("翻译")
  34. root.geometry("215x78")

  35. # 翻译结果
  36. var = StringVar()

  37. Label(root, text="翻译内容:").grid(row=0, column=0, sticky=W)

  38. et = Entry(root)
  39. et.grid(row=0, column=1, sticky=W)
  40. et.bind("<Key-Return>", translate)
  41. et.focus()

  42. lb = Label(root, text="翻译结果:")
  43. lb.grid(row=1, column=0, sticky=W)

  44. et2 = Entry(root, state="readonly", textvariable=var)
  45. et2.grid(row=1, column=1, sticky=W)

  46. Button(root, text="翻译", command=translate).grid(row=2, column=0)
  47. Button(root, text="退出", command=lambda x=0 : root.destroy()).grid(row=2, column=1, sticky=E)

  48. mainloop()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2020-2-8 12:59:19 | 显示全部楼层
  1. import urllib.request
  2. import urllib.parse
  3. import json

  4. import time
  5. import random
  6. import hashlib

  7. def sign(content, salt):
  8.         client = 'fanyideskweb'   
  9.         suffix = 'n%A-rKaT5fb[Gy?;N5@Tj'

  10.         generated_sign = hashlib.md5((client + content + salt + suffix).encode('utf-8')).hexdigest()
  11.         return generated_sign

  12. def version():
  13.     ver = '5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
  14.     build_version = hashlib.md5(ver.encode('utf-8')).hexdigest()
  15.     return build_version

  16. def build_data(content):
  17.     data = dict()
  18.     data['i'] = content
  19.     data['from'] = 'AUTO'
  20.     data['to'] = 'AUTO'
  21.     data['smartresult'] = 'dict'
  22.     data['client'] = 'fanyideskweb'
  23.     data['salt'] = str(int(time.time()*1000) + random.randint(1,10))
  24.     data['sign'] = sign(content, data['salt'])
  25.     data['ts'] = str(int(time.time()*1000))
  26.     data['bv'] = version()
  27.     data['doctype'] = 'json'
  28.     data['version'] = '2.1'
  29.     data['keyfrom'] = 'fanyi.web'
  30.     data['action'] = 'FY_BY_CLICKBUTTION'

  31.     return data

  32. content = '贵在坚持, 持之以恒'
  33. url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=http://www.youdao.com"

  34. data = build_data(content)
  35. data = urllib.parse.urlencode(data).encode('utf-8')

  36. req = urllib.request.Request(url, data)
  37. req.add_header('Referer', 'http://fanyi.youdao.com')
  38. req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')
  39. response = urllib.request.urlopen(req)
  40. html = response.read().decode('utf-8')
  41. target = json.loads(html)
  42. print("翻译结果:%s" % (target['translateResult'][0][0]['tgt']))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 13:34:10 | 显示全部楼层

拜读代码
能说下sign和version函数在进行什么操作吗
build_version用在哪里 了呢是返回给version了吗
最后能说下salt,sign,ts,bv是个啥不
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 13:35:25 | 显示全部楼层
一个账号 发表于 2020-2-8 12:39
有一些可变的是不用写的。

感谢啊。
不加那些个也能运行起来,但是好奇的问下salt,sign,ts的作用是什么呢。有道加这些个有什么用呢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 13:47:42 | 显示全部楼层    本楼为最佳答案   
stone_qaq 发表于 2020-2-8 13:34
拜读代码
能说下sign和version函数在进行什么操作吗
build_version用在哪里 了呢是返回给version了吗

根据 有道 的 javascript 逻辑,生成 data 中的 sign, salt, ts, bv
这是 youdao 中简单的防爬机制。

build_version 用在31行, data['bv']
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 14:03:36 | 显示全部楼层
import urllib.request
import urllib.parse
import json


content=input('请输入想要翻译的词汇:')

url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

data = {}
data['i'] = content
data['from'] = "AUTO"
data['to'] = "AUTO"
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CLICKBUTTION'
data=urllib.parse.urlencode(data).encode('utf-8')

response=urllib.request.urlopen(url,data)
html=response.read().decode('utf-8')

target=json.loads(html)

print('翻译结果是:%s'% (target['translateResult'][0][0]['tgt']))


如果不生成data中的sign,salt,ts,bv会有什么区别呢
以上的代码能运行,但会造成什么问题吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 14:05:59 | 显示全部楼层
stone_qaq 发表于 2020-2-8 14:03
import urllib.request
import urllib.parse
import json

没有问题,sign,salt,ts,bv 都是随机生成的。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 15:01:14 | 显示全部楼层
stone_qaq 发表于 2020-2-8 14:03
import urllib.request
import urllib.parse
import json

有可以用的代理IP不。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 15:26:16 From FishC Mobile | 显示全部楼层
Youdao的反爬机制不是很强,没有那几个变量也可以运行
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-19 19:26:11 | 显示全部楼层

大佬,

弹幕中说的去掉url中_o可以避免掉对‘sault’ ‘sign’ ‘ts’ ‘bv’的检查,这是如何得知的呢?

雪地跪谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-19 21:21:38 From FishC Mobile | 显示全部楼层
clyang12s@imr.a 发表于 2020-2-19 19:26
大佬,

弹幕中说的去掉url中_o可以避免掉对‘sault’ ‘sign’ ‘ts’ ‘bv’的检查,这是如何得知的 ...

我印象中,和这个说法正好相反。
如何得知,并不清楚,没有看到相关的逻辑在js中,不知发布者如何发现的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 09:23:20 | 显示全部楼层
XiaoPaiShen 发表于 2020-2-19 21:21
我印象中,和这个说法正好相反。
如何得知,并不清楚,没有看到相关的逻辑在js中,不知发布者如何发现的

谢谢回复!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-3 21:53

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表