鱼C论坛

 找回密码
 立即注册
查看: 2945|回复: 6

[已解决]爬虫返回数据错误

[复制链接]
发表于 2019-9-18 22:41:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我试了小甲鱼的代码,发现返回错误。错误内容:显示字典中没有”translateResult“ 这个关键字。后来我打印返回的内容,发现这个字典只有一个内容,并没有“translateResult”这个
向各位大佬指导我哪里出错了。
最佳答案
2019-9-19 09:21:38
楼上说的去掉_o是最最最最low的方法。,当然也是最快的方法。
出现errorcode:50就表示你的爬虫代码被反爬虫机制识别了。所以你就GG了。
绕过反爬虫要么就学楼上的,去掉_o。但是这样是只能翻译一种语言,比如中文翻译成英文。
最好的是该去网页的JS中或者其他JSON之类的地方找到网页对反爬虫所做的算法机制,然后模拟
算法,加上模拟的header.模拟的其他东西直接欺骗。这才是最有用的。可以去搜教程。很多的。

这是返回的数组

这是返回的数组
1568817412(1).png

post请求需要的内容

post请求需要的内容

我的代码

我的代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-9-18 23:53:00 | 显示全部楼层
1、链接里去掉 _o (js反爬);2、data 的很多参数名都更新了,而你还是用的旧的参数,所以读取不了。

戳代码:(仅限于把英译中,如果需要改为中译英,修改data里的‘from’和‘to’参数即可)



  1. import urllib.request
  2. import urllib.parse
  3. import json

  4. content = input("请输入需要翻译的内容:")
  5. url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

  6. head = {}
  7. head['Referer'] = 'http://fanyi.youdao.com/'
  8. head['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'


  9. data = {}
  10. data['i'] = content
  11. data['from'] = 'en'
  12. data['to'] = 'zh-CHS'
  13. data['smartresult'] = 'dict'
  14. data['client'] = 'fanyideskweb'

  15. data['salt'] = '15686886836618'  #会变化
  16. data['sign'] = '212a9d342602ce07085f6ce98d37111a'#会变化
  17. data['ts'] = '1568688683661'#会变化

  18. data['bv'] = '7e3150ecbdf9de52dc355751b074cf60'
  19. data['doctype'] = 'json'
  20. data['version'] = '2.1'
  21. data['keyfrom'] = 'fanyi.web'
  22. data['action'] = 'FY_BY_CLICKBUTTION'

  23. data = urllib.parse.urlencode(data).encode('utf-8')

  24. req = urllib.request.Request(url,data=data,headers=head)

  25. response = urllib.request.urlopen(req)

  26. html = response.read().decode('utf-8')
  27. #print(html)

  28. target = json.loads(html)
  29. print("翻译结果:%s" % (target['translateResult'][0][0]['tgt']))

复制代码



                               
登录/注册后可看大图
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 2 反对 0

使用道具 举报

发表于 2019-9-19 09:21:38 | 显示全部楼层    本楼为最佳答案   
楼上说的去掉_o是最最最最low的方法。,当然也是最快的方法。
出现errorcode:50就表示你的爬虫代码被反爬虫机制识别了。所以你就GG了。
绕过反爬虫要么就学楼上的,去掉_o。但是这样是只能翻译一种语言,比如中文翻译成英文。
最好的是该去网页的JS中或者其他JSON之类的地方找到网页对反爬虫所做的算法机制,然后模拟
算法,加上模拟的header.模拟的其他东西直接欺骗。这才是最有用的。可以去搜教程。很多的。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-19 10:33:42 | 显示全部楼层
本帖最后由 geen 于 2019-9-19 10:45 编辑
漫步云端〃 发表于 2019-9-19 09:21
楼上说的去掉_o是最最最最low的方法。,当然也是最快的方法。
出现errorcode:50就表示你的爬虫 ...


你试过用算法机制去处理吗?(我已经实现了自动翻译功能(不仅仅是翻译一种语言哦))

                               
登录/注册后可看大图
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-19 12:01:27 | 显示全部楼层
漫步云端〃 发表于 2019-9-19 09:21
楼上说的去掉_o是最最最最low的方法。,当然也是最快的方法。
出现errorcode:50就表示你的爬虫 ...

已找到教程,谢谢大神指点哦
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-19 12:58:15 | 显示全部楼层
谢谢各位知道
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-19 13:13:21 | 显示全部楼层
geen 发表于 2019-9-18 23:53
1、链接里去掉 _o (js反爬);2、data 的很多参数名都更新了,而你还是用的旧的参数,所以读取不了。

...

我那个已经是最新的data。学到了,谢谢大佬了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-23 03:26

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表