鱼C论坛

 找回密码
 立即注册
查看: 1032|回复: 15

爬虫显示418错误

[复制链接]
发表于 2020-3-27 13:58:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 一个账号 于 2020-3-27 17:09 编辑
import urllib.request
from http.cookiejar import CookieJar
import re

cookie = CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))

data = {}
data= {
"form_email":"your email",
"form_password":"your password",
"source":"index_nav", #没有的话登录不成功
}
data= urllib.parse.urlencode(data).encode('utf-8')
login_url ="https://www.douban.com/stat.html?&action=login_click&platform=phone&login_click_time=1585283968929&callback=jsonp_c9mf28d1cw2nli1"
response = opener.open(login_url,data)

if response.geturl() == 'https://www.douban.com/stat.html?&action=login_click&platform=phone&login_click_time=1585283968929&callback=jsonp_c9mf28d1cw2nli1':
      html = response.read()

      imgurl = re.search('<img id="captcha_image" src="(.+?)" alt="captcha" class="captcha_image"/>', html)
      if imgurl:
            #讲图片保存至同目录
            url = urllib.urlretrieve(url,'v.jpg')
      captcha=re.search('<input type="hidden" name="captcha-id" value="(.+?)"/>' ,html)
      if captcha:
            
            vcode = raw_input('请输入图片的验证码:')
            
            data["captcha-solution"] = vcode
            data["captcha-id"] = captcha.group(1)
            data["user_login"] = "登录"
            #提交验证码验证
            response=opener.open(login_url, data)
            ''' 登录成功跳转至首页 '''
            if response.geturl() == "http://www.douban.com/":
                print('login success ! ')

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-27 14:00:07 | 显示全部楼层
把headers加上试试
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-27 14:03:40 | 显示全部楼层
加个 headers
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-27 14:05:55 | 显示全部楼层
网页检测请求头发现是代码登录的通常就会被拒绝访问,需要加上headers伪装成浏览器请求。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 14:07:35 | 显示全部楼层

老哥可以帮我打一下吗,我照着网上的打,还是不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 14:08:28 | 显示全部楼层

老哥可以亲手打一下吗,新手一名
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-27 14:08:59 | 显示全部楼层
Jakcy 发表于 2020-3-27 14:08
老哥可以亲手打一下吗,新手一名
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
放进data里面
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 14:09:00 | 显示全部楼层
Hoiste 发表于 2020-3-27 14:05
网页检测请求头发现是代码登录的通常就会被拒绝访问,需要加上headers伪装成浏览器请求。

咋加呀,今天刚看完小甲鱼视频,做了作业有点懵
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-27 14:09:51 | 显示全部楼层
Jakcy 发表于 2020-3-27 14:09
咋加呀,今天刚看完小甲鱼视频,做了作业有点懵

你还在用 Python2 ?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-27 14:17:27 | 显示全部楼层
豆瓣网的话确实是需要请求头的,你看下小甲鱼零基础里面爬虫隐藏那节内容吧,其实就几行代码,课程中就有一些解释了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 16:51:14 | 显示全部楼层

不是呀,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-27 16:51:39 | 显示全部楼层

只有 Python2 才有 raw_input
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 16:58:05 | 显示全部楼层

data = {}
data['form_email'] = '你的账号'
data['form_password'] = '你的密码'
data['source'] = 'index_nav'
data['User-Agent']: 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Maxthon/5.2.7.5000'
放了还是不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 16:59:49 | 显示全部楼层
一个账号 发表于 2020-3-27 16:51
只有 Python2 才有 raw_input

这是复制小甲鱼的一段代码。
老哥,想问一下 ,我加进去了还是行
data = {}
data['form_email'] = '你的账号'
data['form_password'] = '你的密码'
data['source'] = 'index_nav'
data['User-Agent']: 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Maxthon/5.2.7.5000'
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 17:00:26 | 显示全部楼层
Hoiste 发表于 2020-3-27 14:17
豆瓣网的话确实是需要请求头的,你看下小甲鱼零基础里面爬虫隐藏那节内容吧,其实就几行代码,课程中就有一 ...

十分感谢!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-27 17:06:12 | 显示全部楼层
一个账号 发表于 2020-3-27 17:01
不是加到 data 里面,是加到 headers 里面

加进去还是不行。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-25 13:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表