鱼C论坛

 找回密码
 立即注册
查看: 1149|回复: 12

[已解决]有道翻译爬虫问题请教

[复制链接]
发表于 2020-4-4 16:58:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在学习爬虫实战这一讲中,实现有道翻译

其中data里面多了几项每次翻译都是变化的,如下标记的

这样每次返回"errorCode":50。于是怀疑是否是禁止爬虫脚本,增加User-Agent后也不好使。请问是哪里的问题?

  1. # p14_2.py
  2. import urllib.request
  3. import urllib.parse

  4. url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"

  5. data = {}
  6. head = {}

  7. data['i'] = 'I love FishC.com!'
  8. data['from'] = 'AUTO'
  9. data['to'] = 'AUTO'
  10. data['smartresult'] = 'dict'
  11. data['client'] = 'fanyideskweb'
  12. [backcolor=Magenta]#data['salt'] = '15859858781330'
  13. #data['sign'] = 'e84cc0ddc3e0c98eff7302d98a328857'
  14. #data['ts'] = '1585985878133'[/backcolor]
  15. data['bv'] = '70244e0061db49a9ee62d341c5fed82a'
  16. data['doctype'] = 'json'
  17. data['version'] = '2.1'
  18. data['keyfrom'] = 'fanyi.web'
  19. data['action'] = 'FY_BY_CLICKBUTTION'

  20. head['Referer'] = 'http://fanyi.youdao.com/'
  21. head['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'

  22. data = urllib.parse.urlencode(data).encode('utf-8')
  23. response = urllib.request.urlopen(url,data,head)

  24. html = response.read().decode('utf-8')
  25. print(html)
复制代码



最佳答案
2020-4-4 17:00:30
将 url 中的 _o 去掉,因为网站增加了反爬虫机制:

  1. # p14_2.py
  2. import urllib.request
  3. import urllib.parse

  4. url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

  5. data = {}

  6. data['i'] = 'I love FishC.com!'
  7. data['from'] = 'AUTO'
  8. data['to'] = 'AUTO'
  9. data['smartresult'] = 'dict'
  10. data['client'] = 'fanyideskweb'
  11. data['bv'] = '70244e0061db49a9ee62d341c5fed82a'
  12. data['doctype'] = 'json'
  13. data['version'] = '2.1'
  14. data['keyfrom'] = 'fanyi.web'
  15. data['action'] = 'FY_BY_CLICKBUTTION'

  16. data = urllib.parse.urlencode(data).encode('utf-8')
  17. response = urllib.request.urlopen(url, data)

  18. html = response.read().decode('utf-8')
  19. print(html)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-4-4 17:00:30 | 显示全部楼层    本楼为最佳答案   
将 url 中的 _o 去掉,因为网站增加了反爬虫机制:

  1. # p14_2.py
  2. import urllib.request
  3. import urllib.parse

  4. url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

  5. data = {}

  6. data['i'] = 'I love FishC.com!'
  7. data['from'] = 'AUTO'
  8. data['to'] = 'AUTO'
  9. data['smartresult'] = 'dict'
  10. data['client'] = 'fanyideskweb'
  11. data['bv'] = '70244e0061db49a9ee62d341c5fed82a'
  12. data['doctype'] = 'json'
  13. data['version'] = '2.1'
  14. data['keyfrom'] = 'fanyi.web'
  15. data['action'] = 'FY_BY_CLICKBUTTION'

  16. data = urllib.parse.urlencode(data).encode('utf-8')
  17. response = urllib.request.urlopen(url, data)

  18. html = response.read().decode('utf-8')
  19. print(html)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-4 17:17:39 | 显示全部楼层
zltzlt 发表于 2020-4-4 17:00
将 url 中的 _o 去掉,因为网站增加了反爬虫机制:

能详细解释下原理吗?我目前只学习到通过修改User-Agent来让其认为是浏览器打开
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-4 17:18:25 | 显示全部楼层
Pyshell 发表于 2020-4-4 17:17
能详细解释下原理吗?我目前只学习到通过修改User-Agent来让其认为是浏览器打开

没有原理,这是固定的(对于爬取有道翻译)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-4 17:21:48 | 显示全部楼层
zltzlt 发表于 2020-4-4 17:18
没有原理,这是固定的(对于爬取有道翻译)

好吧。多谢多谢~
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-4 17:22:16 | 显示全部楼层
  1. import urllib.request
  2. import urllib.parse
  3. import json
  4. import time

  5. while True:
  6.     content = input('请输入需要翻译的内容(输入"q!"退出程序):')
  7.     if content == 'q!':
  8.         break
  9.    
  10.     url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

  11.     '''
  12.     head = {}
  13.     head['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
  14.     '''

  15.     data = {}
  16.     data['i'] = content
  17.     data['type'] = 'AUTO'
  18.     data['doctype'] = 'json'
  19.     data['version'] = '1.6'
  20.     data['keyfrom'] = 'fanyi.web'
  21.     data['ue'] = 'UTF-8'
  22.     data['typoResult'] = 'true'
  23.     data = urllib.parse.urlencode(data).encode('utf-8')

  24.     req = urllib.request.Request(url, data)
  25.     req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')

  26.     response = urllib.request.urlopen(req)
  27.     html = response.read().decode('utf-8')

  28.     target = json.loads(html)
  29.     target = target['translateResult'][0][0]['tgt']

  30.     print(target)
  31.     time.sleep(5)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 0 反对 1

使用道具 举报

发表于 2020-4-4 17:27:58 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-4 17:57:37 | 显示全部楼层

这个网址是去掉_o,然后data模块照着小甲鱼写的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-4 18:28:15 | 显示全部楼层
老八秘制 发表于 2020-4-4 17:57
这个网址是去掉_o,然后data模块照着小甲鱼写的

C:\Users\Administrator\Desktop\1.jpg

我问的就是为什么要去掉这个_o,从网页“审查元素”看是包含_o的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-4 18:29:13 | 显示全部楼层
Pyshell 发表于 2020-4-4 18:28
我问的就是为什么要去掉这个_o,从网页“审查元素”看是包含_o的

见图片
1.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-4 20:10:59 | 显示全部楼层

因为你是用浏览器访问的,而你用爬虫访问时浏览器认出你是爬虫,所以就返回 {"errorCode":50}
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-4 23:13:46 | 显示全部楼层
zltzlt 发表于 2020-4-4 20:10
因为你是用浏览器访问的,而你用爬虫访问时浏览器认出你是爬虫,所以就返回 {"errorCode":50}

但是我修改了User-Agent后依然不好使。

又比如下面的例子中修改了User-Agent依然报错HTTP Error 403: Forbidden
显然又是被反爬了。这就搞不懂了。

  1. import urllib.request
  2. import os



  3. def url_open(url):
  4.     req = urllib.request.Request(url)
  5.     req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36')
  6.     response = urllib.request.urlopen(url)
  7.     html = response.read()

  8.     return html


  9. def get_page(url):
  10.     html = url_open(url).decode('utf-8')

  11.     a = html.find('current-comment-page') + 23
  12.     b = html.find(']', a)

  13.     return html[a:b]


  14. def find_imgs(url):
  15.     html = url_open(url).decode('utf-8')
  16.     img_addrs = []

  17.     a = html.find('img src=')

  18.     while a != -1:
  19.         b = html.find('.jpg', a, a+255)
  20.         if b != -1:
  21.             img_addrs.append(html[a+9:b+4])
  22.         else:
  23.             b = a + 9

  24.         a = html.find('img src=', b)

  25.     return img_addrs


  26. def save_imgs(folder, img_addrs):
  27.     for each in img_addrs:
  28.         filename = each.split('/')[-1]
  29.         with open(filename, 'wb') as f:
  30.             img = url_open(each)
  31.             f.write(img)


  32. def download_mm(folder='OOXX', pages=10):
  33.     os.mkdir(folder)
  34.     os.chdir(folder)

  35.     url = "http://jandan.net/ooxx/"
  36.     page_num = int(get_page(url))

  37.     for i in range(pages):
  38.         page_num -= i
  39.         page_url = url + 'page-' + str(page_num) + '#comments'
  40.         img_addrs = find_imgs(page_url)
  41.         save_imgs(folder, img_addrs)

  42. if __name__ == '__main__':
  43.     download_mm()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-5 11:01:36 | 显示全部楼层
zltzlt 发表于 2020-4-4 17:18
没有原理,这是固定的(对于爬取有道翻译)

有原理的,JS在本地生成随机字符串,加上_o会随机生成一个时间戳
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-20 01:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表