popping石头 发表于 2017-9-24 23:06:46

有道词典爬虫问题

本帖最后由 popping石头 于 2017-9-25 10:04 编辑

两天前,跟着小甲鱼老师的书和视频学到了爬虫,发现老的爬虫爬取都是error:50,折腾了两天网上找各种资料补充学习,发现在form表单里多出了,salt和sign,结果疯狂的查这把"盐"究竟是个啥....才发现自己的自己知识的匮乏,最后在近乎绝望下,在CSDN的博客中找到一篇比较新的爬取有道爬虫的文章,于是乎立刻马上跟"盐"死磕,大概理解了时间戳的意思,跟着写了一边代码,发现还是悲催的失败了,于是又是各种骂着街在网上找文章,最后总算折腾出了个雏形,还算可以用,当然不能跟大神们来比较,我还是一只小菜鸡,下面把代码双手奉上,并附有CSDN知了课堂的博客,还有是就建议先好好学一下14.3章 隐藏.
知了课堂博客:http://blog.csdn.net/nunchakushuang/article/details/75294947
本人菜鸡请轻喷....
**** Hidden Message *****

奔跑的派森 发表于 2017-12-15 12:54:20

我也碰到这个问题了,显示我的访问非法,来向楼主来学习

被翻红浪 发表于 2017-12-15 13:57:10

学习

JL之怒 发表于 2017-12-21 21:40:45

看看

Dreamcatcher~ 发表于 2017-12-23 19:43:05

学习

aarontang1989 发表于 2017-12-23 20:27:44

支持楼主

pony马 发表于 2018-2-7 00:49:05

学习

天圆突破 发表于 2018-2-7 07:15:28

之前我也遇到这个问题后来发现了解决办法。在词典的post命令下能看到3个js文件,打开其中第三个。你会发现js已经做了加密,你直接搜盐是搜不到的。
这里需要1在pycharm里重新格式化代码,2搜索md5关键字。这个是函数名,所以无法加密。
然后就能查到具体的sign编码规则了。
之所以让你自己弄而不是简单的把里面那个字符串发出来,是因为他们会定期更换字符串的啊……你看坛子里有道爬虫那么多,现在没一个能用的,就是因为有道会定期更换sign里面一个字符串。
建议把那个字符串用pickle做成校验文件,这样方便定期换.
还有,现在发post还得把cookies也带上了,要不然也会拒绝。
最后也请教大家一个问题,我发现爬有道词典即使设置了随机间隔,不间断查5次以后还是会被拒绝,除了换代理ip外还有什么别的办法呢?

yronl 发表于 2018-2-7 16:18:37

0.0

夏天了夏天 发表于 2018-2-8 16:54:11

学习了

yaha888 发表于 2018-2-10 09:39:42

学习学习。。。不知道什么时候才能学好

Kelsey 发表于 2018-2-11 19:06:29

1

Sniperzxc 发表于 2018-2-12 13:25:54

66666

thu_ben 发表于 2018-2-13 00:04:25

赞~

淫令天下 发表于 2018-2-13 11:43:25

爬百度翻译的时候总是错误提示997,,希望你的代码能给我一点收获,,感谢

大头目 发表于 2018-2-20 22:16:09

学习

amw 发表于 2018-2-22 11:42:30

学习

amw 发表于 2018-2-22 11:43:01

学习学习

dreamshallow 发表于 2018-2-28 10:31:08

看一下

ghjghj2012 发表于 2018-3-22 18:01:24

回复是一种美德
页: [1] 2 3
查看完整版本: 有道词典爬虫问题