有道词典爬虫问题
本帖最后由 popping石头 于 2017-9-25 10:04 编辑两天前,跟着小甲鱼老师的书和视频学到了爬虫,发现老的爬虫爬取都是error:50,折腾了两天网上找各种资料补充学习,发现在form表单里多出了,salt和sign,结果疯狂的查这把"盐"究竟是个啥....才发现自己的自己知识的匮乏,最后在近乎绝望下,在CSDN的博客中找到一篇比较新的爬取有道爬虫的文章,于是乎立刻马上跟"盐"死磕,大概理解了时间戳的意思,跟着写了一边代码,发现还是悲催的失败了,于是又是各种骂着街在网上找文章,最后总算折腾出了个雏形,还算可以用,当然不能跟大神们来比较,我还是一只小菜鸡,下面把代码双手奉上,并附有CSDN知了课堂的博客,还有是就建议先好好学一下14.3章 隐藏.
知了课堂博客:http://blog.csdn.net/nunchakushuang/article/details/75294947
本人菜鸡请轻喷....
**** Hidden Message ***** 我也碰到这个问题了,显示我的访问非法,来向楼主来学习 学习
看看 学习
支持楼主
学习 之前我也遇到这个问题后来发现了解决办法。在词典的post命令下能看到3个js文件,打开其中第三个。你会发现js已经做了加密,你直接搜盐是搜不到的。
这里需要1在pycharm里重新格式化代码,2搜索md5关键字。这个是函数名,所以无法加密。
然后就能查到具体的sign编码规则了。
之所以让你自己弄而不是简单的把里面那个字符串发出来,是因为他们会定期更换字符串的啊……你看坛子里有道爬虫那么多,现在没一个能用的,就是因为有道会定期更换sign里面一个字符串。
建议把那个字符串用pickle做成校验文件,这样方便定期换.
还有,现在发post还得把cookies也带上了,要不然也会拒绝。
最后也请教大家一个问题,我发现爬有道词典即使设置了随机间隔,不间断查5次以后还是会被拒绝,除了换代理ip外还有什么别的办法呢? 0.0 学习了 学习学习。。。不知道什么时候才能学好 1
66666 赞~ 爬百度翻译的时候总是错误提示997,,希望你的代码能给我一点收获,,感谢 学习
学习 学习学习 看一下 回复是一种美德