和vvv 发表于 2017-10-12 18:12:59

45 豆瓣模拟登陆

本帖最后由 和vvv 于 2017-10-12 18:14 编辑

45 豆瓣模拟登陆

一、分析情况

模拟登陆豆瓣,跟登录CSDN相似。但有一点不同,此时来说,CSDN不管你登录多少次,是不会有验证码出现的。而在登录豆瓣时,输入密码错误几次之后,就会出现图片验证码。这样的:


同时,如果我们用爬虫在短时间内登陆多次,便发现不能再登陆成功了{:5_100:}。这是因为出现了验证码,而我们在提交POST数据时,没有加入验证码字段。

二、处理验证码问题

这里的验证码就是输入图片中的字符。我们找到有验证码时登录,进行数据分析。发现是这样的:






发现其比没有验证码时多了2个字段。一个是验证码图片中的字符(captcha-solution),一个是验证码id标识号(captcha-id)。验证码的值好理解,ID又是用来干什么呢?猜一下,是用来标识验证码身份的唯一性(经验)。然后我们去网页的源码中查找,刚好找到(又是经验加分析):



这里captcha-id的值和POST中的一样呢。那就简单了,每次提交数据之前,先爬取登陆首页,提取出captcha-id的值。那还有captcha-solution呢?不就是输入验证码吗。

想了想{:5_92:},应该有两种处理的方式:1、每次把验证码图片保存下来,手动输入。 2、程序自动识别验证码图片中的字符,自动输入。不用说也知道第二种方法比较麻烦,查了一下资料,有很多方法:(1)要么自己写程序来识别(图片识别之类的)。(2)利用别人已经做好的平台。(网上一搜 云打码 就会有许多资料)。这里,由于技术和金钱有限,就是用第一种了。


三、程序实现

完整代码:

**** Hidden Message *****

lLYPYTH 发表于 2017-10-13 08:57:45

值得一看

聂路成 发表于 2017-10-13 18:12:07

学习

baicel21314 发表于 2017-10-20 09:16:33

嘿嘿,知识是无价的~~~~~~

懒癌患者 发表于 2017-10-22 09:14:57

dd顶

淡蓝色 发表于 2017-10-22 10:22:49

学习一下

张大象 发表于 2017-10-27 08:59:59

看看

ledehui 发表于 2017-11-10 13:22:17

6666

小虎哥zju 发表于 2017-11-10 13:30:03

不错哦

涂涂的小世界 发表于 2017-11-10 14:31:29

值得学习

tiangolden 发表于 2017-11-24 20:47:10

领教了,多多学习

sahinzheng 发表于 2017-12-1 13:41:47

666

475759385 发表于 2017-12-1 20:38:13

学习了

walter 发表于 2017-12-4 02:27:40

学习学习!!!!!!!!!!

wl910502 发表于 2017-12-4 11:56:18

学学学

payton24 发表于 2017-12-14 20:09:03

看一看

来钓鱼 发表于 2017-12-14 22:34:52

{:7_130:}

xxkk14 发表于 2017-12-19 15:48:05

学习

石小龙 发表于 2017-12-19 17:40:43

来研究下大佬的代码

石小龙 发表于 2017-12-19 17:56:08

执行有误啊,账号密码都没问题
页: [1] 2 3
查看完整版本: 45 豆瓣模拟登陆