鱼C论坛

 找回密码
 立即注册
查看: 3078|回复: 11

[已解决]爬虫问题

[复制链接]
发表于 2022-9-24 20:58:12 | 显示全部楼层 |阅读模式
5鱼币
跟着小甲鱼写程序但运行不起来
https://www.bilibili.com/video/BV1Fs411A7HZ/?p=55&spm_id_from=pageDriver&vd_source=7e03b4dee8e084d03879d74acd3a0772
在第15分5秒左右,
跟小甲鱼写了半天,结果输出这玩意儿:
  1. {"errorCode":50}
复制代码
我在有道翻译看到的Form Data是这样的:
  1. i: I love FishC.com!
  2. from: AUTO
  3. to: AUTO
  4. smartresult: dict
  5. client: fanyideskweb
  6. salt: 16640232015992
  7. sign: 4bb24289fa0e792d3c2fd56096b5ad78
  8. lts: 1664023201599
  9. bv: 79d103f0086f0e2586344a7cd1b549d7
  10. doctype: json
  11. version: 2.1
  12. keyfrom: fanyi.web
  13. action: FY_BY_CLICKBUTTION
复制代码
这是我的代码:
  1. import urllib.request
  2. import urllib.parse

  3. url = 'https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
  4. data = {}

  5. data['i'] = 'I love FishC.com!'
  6. data['from'] = 'AUTO'
  7. data['to'] = 'AUTO'
  8. data['smartresult'] = 'dict'
  9. data['client'] = 'fanyideskweb'
  10. data['salt'] = '16640215814102'
  11. data['sign'] = '7d8e358cc52232beadfa7f868aef0a1b'
  12. data['lts'] = '1664021581410'
  13. data['bv'] = '79d103f0086f0e2586344a7cd1b549d7'
  14. data['doctype'] = 'json'
  15. data['version'] = '2.1'
  16. data['keyfrom'] = 'fanyi.web'
  17. data['action'] = 'FY_BY_CLICKBUTTION'
  18. data = urllib.parse.urlencode(data).encode('utf-8')

  19. r = urllib.request.urlopen(url, data)

  20. html = r.read().decode('utf-8')

  21. print(html)
复制代码
很烦,求大神解释一下
最佳答案
2022-9-24 20:58:13
模拟一下有道的反爬算法就可以了
代码:
  1. import urllib.request
  2. import urllib.parse
  3. import random
  4. import time
  5. import hashlib

  6. url = 'https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
  7. headers ={}
  8. data = {}
  9. text = "I love FishC.com!"

  10. lts = str(int(time.time()*1000))
  11. salt = lts + str(random.randint(0,10))
  12. sign_str = 'fanyideskweb' + text + salt + 'Ygy_4c=r#e#4EX^NUGUc5'
  13. m = hashlib.md5(sign_str.encode())
  14. sign = m.hexdigest()

  15. headers["User-Agent"] = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
  16. headers["Referer"] = "https://fanyi.youdao.com/"
  17. headers["Cookie"] = "OUTFOX_SEARCH_USER_ID=1907954952@182.203.147.49; OUTFOX_SEARCH_USER_ID_NCOO=2032702153.1070416; fanyi-ad-id=306808; fanyi-ad-closed=1; ___rl__test__cookies=1654931146702"

  18. data['i'] = text
  19. data['from'] = 'AUTO'
  20. data['to'] = 'AUTO'
  21. data['smartresult'] = 'dict'
  22. data['client'] = 'fanyideskweb'
  23. data['salt'] = salt
  24. data['sign'] = sign
  25. data['lts'] = lts
  26. data['bv'] = '79d103f0086f0e2586344a7cd1b549d7'
  27. data['doctype'] = 'json'
  28. data['version'] = '2.1'
  29. data['keyfrom'] = 'fanyi.web'
  30. data['action'] = 'FY_BY_CLICKBUTTION'
  31. data = urllib.parse.urlencode(data).encode('utf-8')

  32. request = urllib.request.Request(url,data=data,headers=headers)
  33. r = urllib.request.urlopen(request)

  34. html = r.read().decode('utf-8')

  35. print(html)
复制代码

运行结果:
  1. {"errorCode":0,"translateResult":[[{"tgt":"我爱FishC.com !","src":"I love FishC.com!"}]],"type":"en2zh-CHS"}
  2. [Finished in 800ms]
复制代码

最佳答案

查看完整内容

模拟一下有道的反爬算法就可以了 代码: 运行结果:
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-9-24 20:58:13 | 显示全部楼层    本楼为最佳答案   
模拟一下有道的反爬算法就可以了
代码:
  1. import urllib.request
  2. import urllib.parse
  3. import random
  4. import time
  5. import hashlib

  6. url = 'https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
  7. headers ={}
  8. data = {}
  9. text = "I love FishC.com!"

  10. lts = str(int(time.time()*1000))
  11. salt = lts + str(random.randint(0,10))
  12. sign_str = 'fanyideskweb' + text + salt + 'Ygy_4c=r#e#4EX^NUGUc5'
  13. m = hashlib.md5(sign_str.encode())
  14. sign = m.hexdigest()

  15. headers["User-Agent"] = "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36"
  16. headers["Referer"] = "https://fanyi.youdao.com/"
  17. headers["Cookie"] = "OUTFOX_SEARCH_USER_ID=1907954952@182.203.147.49; OUTFOX_SEARCH_USER_ID_NCOO=2032702153.1070416; fanyi-ad-id=306808; fanyi-ad-closed=1; ___rl__test__cookies=1654931146702"

  18. data['i'] = text
  19. data['from'] = 'AUTO'
  20. data['to'] = 'AUTO'
  21. data['smartresult'] = 'dict'
  22. data['client'] = 'fanyideskweb'
  23. data['salt'] = salt
  24. data['sign'] = sign
  25. data['lts'] = lts
  26. data['bv'] = '79d103f0086f0e2586344a7cd1b549d7'
  27. data['doctype'] = 'json'
  28. data['version'] = '2.1'
  29. data['keyfrom'] = 'fanyi.web'
  30. data['action'] = 'FY_BY_CLICKBUTTION'
  31. data = urllib.parse.urlencode(data).encode('utf-8')

  32. request = urllib.request.Request(url,data=data,headers=headers)
  33. r = urllib.request.urlopen(request)

  34. html = r.read().decode('utf-8')

  35. print(html)
复制代码

运行结果:
  1. {"errorCode":0,"translateResult":[[{"tgt":"我爱FishC.com !","src":"I love FishC.com!"}]],"type":"en2zh-CHS"}
  2. [Finished in 800ms]
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-9-24 21:01:34 | 显示全部楼层

url = 'https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

将 URL 中的 _o 给去掉即可,有道的假链反爬,参考代码:

  1. import urllib.request
  2. import urllib.parse

  3. url = 'https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
  4. data = {}

  5. data['i'] = 'I love FishC.com!'
  6. data['from'] = 'AUTO'
  7. data['to'] = 'AUTO'
  8. data['smartresult'] = 'dict'
  9. data['client'] = 'fanyideskweb'
  10. data['salt'] = '16640215814102'
  11. data['sign'] = '7d8e358cc52232beadfa7f868aef0a1b'
  12. data['lts'] = '1664021581410'
  13. data['bv'] = '79d103f0086f0e2586344a7cd1b549d7'
  14. data['doctype'] = 'json'
  15. data['version'] = '2.1'
  16. data['keyfrom'] = 'fanyi.web'
  17. data['action'] = 'FY_BY_CLICKBUTTION'
  18. data = urllib.parse.urlencode(data).encode('utf-8')

  19. r = urllib.request.urlopen(url, data)

  20. html = r.read().decode('utf-8')

  21. print(html)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-24 21:07:48 | 显示全部楼层
Twilight6 发表于 2022-9-24 21:01
url = 'https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

将 URL 中的 _o  ...


cuo.JPG


红色的一坨
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-9-24 21:10:07 | 显示全部楼层


你没改参数吧?不应该会报错的,可能是你访问太频繁了。我这里正常执行:

Snipaste_2022-09-24_21-08-49.png

重新拷去运行看看

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-9-24 21:28:39 | 显示全部楼层
我输出是{"type":"EN2ZH_CN","errorCode":0,"elapsedTime":1,"translateResult":[[{"src":"I love FishC.com!","tgt":"我爱FishC.com !"}]]}
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-25 07:42:09 | 显示全部楼层
wu.JPG

在IDLE和VS code上都不行啊?





小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-25 08:02:37 | 显示全部楼层
临时号 发表于 2022-9-24 21:09
模拟一下有道的反爬算法就可以了
代码:

成功了,但能解释一下吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-9-25 12:52:14 From FishC Mobile | 显示全部楼层
元豪 发表于 2022-9-25 08:02
成功了,但能解释一下吗?

有道的令牌是用md5加密,这需要你去逆向js
这没啥可解释的,真要解释起来,需要好长的篇幅
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-9-26 23:05:04 | 显示全部楼层
本帖最后由 临时号 于 2022-9-26 23:06 编辑
元豪 发表于 2022-9-25 08:02
成功了,但能解释一下吗?


在fanyi.min.js这个文件中,定义了对salt,sign,lts的加密算法
在fanyi.min.js的第8380行左右,有这么一段代码
  1. var n = e("./jquery-1.7");
  2. e("./utils");
  3. e("./md5");
  4. var r = function(e) {
  5.     var t = n.md5(navigator.appVersion)
  6.       , r = "" + (new Date).getTime()
  7.       , i = r + parseInt(10 * Math.random(), 10);
  8.     return {
  9.         ts: r,
  10.         bv: t,
  11.         salt: i,
  12.         sign: n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
  13.     }
  14. };
  15. t.recordUpdate = function(e) {
  16.     var t = e.i
  17.       , i = r(t);
  18.     n.ajax({
  19.         type: "POST",
  20.         contentType: "application/x-www-form-urlencoded; charset=UTF-8",
  21.         url: "/bettertranslation",
  22.         data: {
  23.             i: e.i,
  24.             client: "fanyideskweb",
  25.             salt: i.salt,
  26.             sign: i.sign,
  27.             lts: i.ts,
  28.             bv: i.bv,
  29.             tgt: e.tgt,
  30.             modifiedTgt: e.modifiedTgt,
  31.             from: e.from,
  32.             to: e.to
  33.         },
  34.         success: function(e) {},
  35.         error: function(e) {}
  36.     })
  37. }
复制代码

这是一段javascript代码,可以看到
对lts的加密代码是 r = "" + (new Date).getTime()
对salt的加密代码是i = r + parseInt(10 * Math.random(), 10);
对sign的加密代码是n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
将它们转化为对应的python代码就是
lts:lts = str(int(time.time()*1000))
salt:salt = lts + str(random.randint(0,10))
sign:
  1. sign_str = 'fanyideskweb' + text + salt + 'Ygy_4c=r#e#4EX^NUGUc5'
  2. m = hashlib.md5(sign_str.encode())
  3. sign = m.hexdigest()
复制代码


以上内容听不懂的没有关系,很正常
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-9-27 19:10:57 | 显示全部楼层
临时号 发表于 2022-9-26 23:05
在fanyi.min.js这个文件中,定义了对salt,sign,lts的加密算法
在fanyi.min.js的第8380行左右,有这么一 ...

(似懂非懂的点点头)emm......
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-9-27 23:00:01 | 显示全部楼层
元豪 发表于 2022-9-27 19:10
(似懂非懂的点点头)emm......

听不懂没关系,我在你这个阶段的时候肯定也听不懂,很正常
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-23 14:40

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表