鱼C论坛

 找回密码
 立即注册
查看: 2504|回复: 15

[已解决]关于模拟登录的问题(验证码错误)

[复制链接]
发表于 2021-8-21 16:23:03 | 显示全部楼层 |阅读模式
20鱼币
今天在模拟登录古诗文网的时候遇到一个问题,爬取到的页面一直显示验证码错误。
验证码我是使用的图鉴来识别的,经过我检查以后是没有错误的,有没有大佬知道怎么回事。


下面是源码(用*******覆盖的部分是涉及个人信息的)
import requests
from lxml import etree
from 图鉴识别验证码 import base64_api

# 登录页面的url
headers = {
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"

}
full_text = requests.get(url="https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx", headers=headers).text
tree = etree.HTML(full_text)

# 获取变化的登录请求值
__VIEWSTATE = tree.xpath('//input[@id="__VIEWSTATE"]/@value')[0]
__VIEWSTATEGENERATOR = tree.xpath('//input[@id="__VIEWSTATEGENERATOR"]/@value')[0]

#获取验证码图片的url
src = tree.xpath('//*[@id="imgCode"]/@src')[0]
#拼接url以后将验证码图片保存到本地
image_url = 'https://so.gushiwen.cn/' + src
image_data = requests.get(url=image_url, headers=headers).content
with open("./code.jpg", "wb") as fp:
    fp.write(image_data)
   
# 使用图鉴(一个验证码识别网站)识别验证码
result = base64_api(uname='*********', pwd='*********', img="./code.jpg", typeid=1003)

#发送请求
session = requests.session()
data = {

    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
    'from': 'http',
    'email': '***************',
    'pwd': '****************',
    'code': result,
    'denglu': '登录'
}
response_text = session.post(url="https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx", headers=headers, data=data).text
print(response_text)


求助
最佳答案
2021-8-21 16:23:04
2861160067 发表于 2021-8-21 19:01
都用session的话确实都可以,但还是希望你跟我讲讲为啥

session会自动记录cookie,让服务器看我们是“同一个”会话。

最佳答案

查看完整内容

session会自动记录cookie,让服务器看我们是“同一个”会话。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-21 16:23:04 | 显示全部楼层    本楼为最佳答案   
2861160067 发表于 2021-8-21 19:01
都用session的话确实都可以,但还是希望你跟我讲讲为啥

session会自动记录cookie,让服务器看我们是“同一个”会话。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-21 18:31:29 | 显示全部楼层
本帖最后由 suchocolate 于 2021-8-21 18:44 编辑

从开始就用session,不然逻辑就变成了用前一次页面的验证码给本次访问输入用了。
s = requests.session()
r = s.get(url="https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx", headers=headers).text
tree = etree.HTML(r.text)
#获取验证码图片的url
src = tree.xpath('//*[@id="imgCode"]/@src')[0]
#拼接url以后将验证码图片保存到本地
image_url = 'https://so.gushiwen.cn/' + src
image_data = s.get(url=image_url, headers=headers).content
with open("./code.jpg", "wb") as fp:
    fp.write(image_data)


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-21 18:44:34 | 显示全部楼层
我这个人工看验证码成功了。
import requests
from lxml import etree
import time


def main():
    s = requests.session()
    headers = {'User-Agent': "Mozilla/5.0"}
    url = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
    r = s.get(url, headers=headers)
    tree = etree.HTML(r.text)
    __VIEWSTATE = tree.xpath('//input[@id="__VIEWSTATE"]/@value')[0]
    __VIEWSTATEGENERATOR = tree.xpath('//input[@id="__VIEWSTATEGENERATOR"]/@value')[0]
    result = tree.xpath('//*[@id="imgCode"]/@src')[0]
    # 拼接url以后将验证码图片保存到本地
    image_url = f'https://so.gushiwen.cn/{result}'
    image_data = s.get(image_url, headers=headers).content
    with open("./code.jpg", "wb") as fp:
        fp.write(image_data)
    time.sleep(20)
    code = input('Please input code')
    data = {
        '__VIEWSTATE': __VIEWSTATE,
        '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
        'from': 'http',
        'email': 'aaaaa',
        'pwd': 'bbbbbb',
        'code': code,
        'denglu': '登录'
    }
    url = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'
    r = s.post(url, headers=headers, data=data)
    print(r.text)


if __name__ == '__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-8-21 18:53:08 | 显示全部楼层
suchocolate 发表于 2021-8-21 18:31
从开始就用session,不然逻辑就变成了用前一次页面的验证码给本次访问输入用了。

但是如果第一开始就用session的话,不也是发送了两次请求吗,一开始不用session也是发送了两次请求呀,能跟我讲讲是为啥吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-8-21 18:55:27 | 显示全部楼层
suchocolate 发表于 2021-8-21 18:31
从开始就用session,不然逻辑就变成了用前一次页面的验证码给本次访问输入用了。

我刚刚试了下,如果两次都用requests的话,好像也不行呀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-8-21 19:01:19 | 显示全部楼层
suchocolate 发表于 2021-8-21 18:31
从开始就用session,不然逻辑就变成了用前一次页面的验证码给本次访问输入用了。

都用session的话确实都可以,但还是希望你跟我讲讲为啥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-8-21 19:36:24 | 显示全部楼层
suchocolate 发表于 2021-8-21 19:22
session会自动记录cookie,让服务器看我们是“同一个”会话。

好的,理解了,非常感谢。
那么如果用requests然后再headers里面添加cookie也会有一样的效果对吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-21 20:07:38 | 显示全部楼层
2861160067 发表于 2021-8-21 19:36
好的,理解了,非常感谢。
那么如果用requests然后再headers里面添加cookie也会有一样的效果对吗?

效果是一样的。
session的好处是不用自己管理cookie,它帮你管理服务器返回的cookie,下次访问是自动调用。
如果用requests.get自己设置cookie,那么得自己想办法收集。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-8-21 20:40:37 | 显示全部楼层
suchocolate 发表于 2021-8-21 20:07
效果是一样的。
session的好处是不用自己管理cookie,它帮你管理服务器返回的cookie,下次访问是自动调 ...

下次访问是什么意思?
一:下一次点开浏览器
二:下一次发送请求
还有一个问题:那就是我们在登录的时候要携带登录的cookie,那么我们要访问登录后的页面是否要携带登录后访问的页面对应的cookie?还是说我们只携带登录的cookie就可以了?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-21 23:10:30 | 显示全部楼层
2861160067 发表于 2021-8-21 20:40
下次访问是什么意思?
一:下一次点开浏览器
二:下一次发送请求


看书吧:
https://github.com/Python3WebSpi ... %E5%92%8CCookies.md
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-8-23 21:13:05 | 显示全部楼层
suchocolate 发表于 2021-8-21 18:31
从开始就用session,不然逻辑就变成了用前一次页面的验证码给本次访问输入用了。

大佬我有个新问题,有空的话去我主题中看看帮我解答一下吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-23 21:15:39 | 显示全部楼层
2861160067 发表于 2021-8-23 21:13
大佬我有个新问题,有空的话去我主题中看看帮我解答一下吧

https://github.com/Python3WebSpider/Python3WebSpider
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-8-23 21:18:00 | 显示全部楼层
suchocolate 发表于 2021-8-23 21:15
https://github.com/Python3WebSpider/Python3WebSpider

大佬,打不开。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-23 22:34:07 | 显示全部楼层

打不开就买书吧《python3网络爬虫开发实战》崔庆才,你问的问题这里都有解答。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-20 23:11:26 | 显示全部楼层

原理明白。完全复制代码还是失败了。谁知道原因
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 10:05

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表