有道词典爬虫问题,Python交流,编程语言专区,鱼C论坛

popping石头 发表于 2017-9-24 23:06:46

有道词典爬虫问题

本帖最后由 popping石头于 2017-9-25 10:04 编辑

两天前,跟着小甲鱼老师的书和视频学到了爬虫,发现老的爬虫爬取都是error：50,折腾了两天网上找各种资料补充学习,发现在form表单里多出了,salt和sign,结果疯狂的查这把"盐"究竟是个啥....才发现自己的自己知识的匮乏,最后在近乎绝望下,在CSDN的博客中找到一篇比较新的爬取有道爬虫的文章,于是乎立刻马上跟"盐"死磕,大概理解了时间戳的意思,跟着写了一边代码,发现还是悲催的失败了,于是又是各种骂着街在网上找文章,最后总算折腾出了个雏形,还算可以用,当然不能跟大神们来比较,我还是一只小菜鸡,下面把代码双手奉上,并附有CSDN知了课堂的博客,还有是就建议先好好学一下14.3章隐藏.
知了课堂博客:http://blog.csdn.net/nunchakushuang/article/details/75294947
本人菜鸡请轻喷....
**** Hidden Message *****

奔跑的派森 发表于 2017-12-15 12:54:20

我也碰到这个问题了，显示我的访问非法，来向楼主来学习

被翻红浪 发表于 2017-12-15 13:57:10

学习

JL之怒 发表于 2017-12-21 21:40:45

看看

Dreamcatcher~ 发表于 2017-12-23 19:43:05

学习

aarontang1989 发表于 2017-12-23 20:27:44

支持楼主

pony马 发表于 2018-2-7 00:49:05

学习

天圆突破 发表于 2018-2-7 07:15:28

之前我也遇到这个问题后来发现了解决办法。在词典的post命令下能看到3个js文件，打开其中第三个。你会发现js已经做了加密，你直接搜盐是搜不到的。
这里需要1在pycharm里重新格式化代码，2搜索md5关键字。这个是函数名，所以无法加密。
然后就能查到具体的sign编码规则了。
之所以让你自己弄而不是简单的把里面那个字符串发出来，是因为他们会定期更换字符串的啊……你看坛子里有道爬虫那么多，现在没一个能用的，就是因为有道会定期更换sign里面一个字符串。
建议把那个字符串用pickle做成校验文件，这样方便定期换.
还有，现在发post还得把cookies也带上了，要不然也会拒绝。
最后也请教大家一个问题，我发现爬有道词典即使设置了随机间隔，不间断查5次以后还是会被拒绝，除了换代理ip外还有什么别的办法呢？

yronl 发表于 2018-2-7 16:18:37

0.0

夏天了夏天 发表于 2018-2-8 16:54:11

学习了

yaha888 发表于 2018-2-10 09:39:42

学习学习。。。不知道什么时候才能学好

Kelsey 发表于 2018-2-11 19:06:29

Sniperzxc 发表于 2018-2-12 13:25:54

66666

thu_ben 发表于 2018-2-13 00:04:25

赞~

淫令天下 发表于 2018-2-13 11:43:25

爬百度翻译的时候总是错误提示997，，希望你的代码能给我一点收获，，感谢

大头目 发表于 2018-2-20 22:16:09

学习

amw 发表于 2018-2-22 11:42:30

学习

amw 发表于 2018-2-22 11:43:01

学习学习

dreamshallow 发表于 2018-2-28 10:31:08

看一下

ghjghj2012 发表于 2018-3-22 18:01:24

回复是一种美德

页: [1] 2 3

鱼C论坛's Archiver

有道词典爬虫问题