鱼C论坛

 找回密码
 立即注册
查看: 1055|回复: 13

[已解决]关于爬虫的问题,好像是md5加密

[复制链接]
发表于 2020-2-20 19:24:43 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
是这样的,因为有道好像把拉黑了,所以我换了搜狗翻译,但是搜狗翻译这个翻译结果好像是经过加密的。
搜狗翻译.jpg
在网页元素审核的notwork里,我找到了翻译结果,就是在translate里dit
但是当我用代码访问并把访问结果打印出来的时候呢,就出问题了
翻译结果.jpg
一串乱码,而且每次的乱码不一样。
昨天我就觉得这可能是经过加密啥的,因为在网页dit那里明明就是翻译结果,被代码访问
之后打印出来的就是一串乱码,而且每次不一样。而且我也注意到了末尾有个md5,
只不过不知道是什么东西,看了两眼,也没在意。
但是今天我在别的地方看到md5是一种加密方式,然后我意识到了什么
就去百度,发现有很多解密md5的网站,我就试着把这些乱码去解密。
但是很遗憾,解密不了。
附上我的代码
  1. import urllib.parse
  2. import json

  3. while True:
  4.     content = input('请输入您需要翻译的内容:')
  5.     url = 'https://fanyi.sogou.com/reventondc/translateV2'
  6.     head = {}
  7.     head['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'


  8.     data = {}
  9.     data['from']= 'auto'
  10.     data['to']='en'
  11.     data['text']= 'content'
  12.     data['client']= 'pc'
  13.     data['fr']= 'browser_pc'
  14.     data['pid']= 'sogou-dict-vr'
  15.     data['dict']= 'true'
  16.     data['word_group']= 'true'
  17.     data['second_query']: 'true'
  18.     data['uuid']= '9b0ffb79-3000-48a9-9fdb-89c02fdc6c6f'
  19.     data['needQc']= '1'
  20.     data = urllib.parse.urlencode(data).encode('utf-8')

  21.     req = urllib.request.Request(url,data,head)
  22.     response = urllib.request.urlopen(req)
  23.     html = response.read()
  24.     target = json.loads(html)

  25.    
  26.     print(target)
  27.     #print(target['translate']['dit'])

复制代码

有大佬知道是怎么回事吗?到底是不是翻译结果被加密了?如果是,那是不是md5方式呢?
如果是,那也解密不了啊。

最佳答案
2020-2-20 19:39:52
本帖最后由 一个账号 于 2020-2-20 19:44 编辑

是啊,我也遇到了这样的问题。这是我的代码:

  1. import requests

  2. content = input("请输入待翻译的内容:")
  3. url = "https://fanyi.sogou.com/reventondc/translateV2"
  4. data = {"text" : content}

  5. target = requests.post(url, params=data).json()
  6. target = target["translate"]["dit"]

  7. print("翻译结果:", target)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-2-20 19:39:52 | 显示全部楼层    本楼为最佳答案   
本帖最后由 一个账号 于 2020-2-20 19:44 编辑

是啊,我也遇到了这样的问题。这是我的代码:

  1. import requests

  2. content = input("请输入待翻译的内容:")
  3. url = "https://fanyi.sogou.com/reventondc/translateV2"
  4. data = {"text" : content}

  5. target = requests.post(url, params=data).json()
  6. target = target["translate"]["dit"]

  7. print("翻译结果:", target)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-20 19:46:40 | 显示全部楼层
一个账号 发表于 2020-2-20 19:39
是啊,我也遇到了这样的问题。这是我的代码:

我的代码好臃肿啊,表单数据里面,除了要翻译的内容其他的都可以不要嘛?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 19:48:11 | 显示全部楼层
像风 发表于 2020-2-20 19:46
我的代码好臃肿啊,表单数据里面,除了要翻译的内容其他的都可以不要嘛?

可以不要,能运行就行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-20 19:57:40 | 显示全部楼层
一个账号 发表于 2020-2-20 19:48
可以不要,能运行就行

噢噢,受教了。
我觉得这个翻译结果就是被加密过的
搜狗翻译2.jpg
你看这里还有这么多内容,为什么代码访问就只能打印detect和translate这两个选项里的内容呢?
有没有办法把其他选项的内容也打印出来呢?
如果可以,说不定能从其他选项把翻译结果给选择出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 19:59:10 | 显示全部楼层
像风 发表于 2020-2-20 19:57
噢噢,受教了。
我觉得这个翻译结果就是被加密过的

https://blog.csdn.net/m0_37886429/article/details/84938045
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-20 20:08:14 | 显示全部楼层
一个账号 发表于 2020-2-20 19:59
https://blog.csdn.net/m0_37886429/article/details/84938045

果然是md5加密啊,真苟,翻译还加密,
这个解密算法我也看不懂,有空再深究吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 20:35:03 | 显示全部楼层
这样说吧,爬虫学到后面就是学逆向,学JS和前端的知识,现在稍微好点的网站都设防了的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-20 20:48:30 | 显示全部楼层
fan1993423 发表于 2020-2-20 20:35
这样说吧,爬虫学到后面就是学逆向,学JS和前端的知识,现在稍微好点的网站都设防了的

那直接学JS和前端的知识不更好吗?
其实我现在也有点迷茫,python好像也分好多方向是不是?
像web开发,我看廖大神的教程最后的实战就是设计一个自己网站
还有什么爬虫、游戏开发等等
我把爬虫前面的基础知识视频刷了两遍,后面的tkinter、爬虫、pygame
都只是初略浏览了一下,感觉每个版块的内容好多啊,
要学好估计要花更多的时间,我都不知道应该把重心放那里。
而且小甲鱼爬虫的例子也太老了,很多都没法实现了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 20:51:59 | 显示全部楼层
像风 发表于 2020-2-20 20:48
那直接学JS和前端的知识不更好吗?
其实我现在也有点迷茫,python好像也分好多方向是不是?
像web开发 ...

爬虫要看,如果说只是浅尝辄止就没必要学那么多,就是requsets,bs4,xpath等,但往深了都不是那么简单,对python本来方向就很多,只不过你说的tkinter,pygame一般也就自娱自乐,而且gui库中有更好的,小甲鱼的视频建议看最新版的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-20 20:56:40 | 显示全部楼层
fan1993423 发表于 2020-2-20 20:51
爬虫要看,如果说只是浅尝辄止就没必要学那么多,就是requsets,bs4,xpath等,但往深了都不是那么简单,对 ...

他那个最新版才更新那么一点,等他更完估计我黄花菜都凉了,我觉得我应该去买本学python的书
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 20:59:46 | 显示全部楼层
像风 发表于 2020-2-20 20:56
他那个最新版才更新那么一点,等他更完估计我黄花菜都凉了,我觉得我应该去买本学python的书

可以的,其他视频或者书都是可以的,只要能学到知识
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 21:38:17 | 显示全部楼层
有道翻译目前还是可以爬虫的,只要修改下url的地址就可以了

把原本url地址中translate后面的"_0"删掉即可
  1. url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-20 21:42:08 | 显示全部楼层
爬虫有道目前还是可以的,修改下url地址就行

把原本拷贝过来的url地址中translate后面的“_0“删掉就可以了,url地址如下:
  1. url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 17:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表