鱼C论坛

 找回密码
 立即注册
查看: 1505|回复: 3

一段用scrapy写的模拟登录豆瓣得代码,错误已定位,但不知增么该,麻烦鱼油们看一下

[复制链接]
发表于 2018-3-13 00:23:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
spider代码如下,错误在最后一个函数 def parse_after(self,response):。
附上cmd的截图

import scrapy
from PIL import Image
import urllib

class doubanloginspider(scrapy.Spider):
    name = 'doubanlogin'
    allowed_domain = ['douban.com']
    #start_url = ['http://www.douban.com/']
    headers = {"User-Agent":
                   "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36"}

    '''请求登录界面'''
    def start_requests(self):
        print('请求登录界面')
        return [scrapy.FormRequest(url = "https://accounts.douban.com/login",
                headers =self.headers ,meta = {"cookiejar":1},callback = self.parse_before,dont_filter=True)]

    '''填写登录表单,查看验证码'''
    def parse_before(self,response):
        print("登录前表单填充")
        captcha_id = response.xpath('//input[@type="hidden"]/@value').extract_first()
        captcha_image_url = response.xpath('//img[@id="captcha_image"]/@src').extract_first()
        if captcha_image_url is None:
            print("无需验证码")
            formdate = {'source':'None',

                        'redir':'https://www.douban.com',
                        'form_email':'15622902864',
                        'form_password':'13750582863abc',
                        'login':'登录'
                        }
        else:
            print('需要验证码')
            save_imag_path = "C:\\Users\lxx\Desktop\douban\douban\spiders\captcha.jpeg"
            #urllib.request.urlretrieve(captcha_image_url,save_imag_path)
            #urlopen = urllib.URLopener()
            fp = urllib.request.urlopen(captcha_image_url)
            data = fp.read()
            f = open(save_imag_path + '1.jpeg', 'wb')
            f.write(data)
            f.close()


            print("1 open!",captcha_image_url)   #图片地址正确
            #im = Image.open("1.jpeg")
            print("2 open!")
            #m.show()
            print("打开图片出错")

            captcha_solution = input("请根据图片输入验证码")
            print("打印")
            formdate = {'source':'None',
                        'redir':'https://www.douban.com',
                        'form_email':'15622902864',
                        'form_password':'13750582863abc',
                        'captcha-solution':captcha_solution,
                        'captcha-id':captcha_id,
                        'login':'登录'
                        }
        print("表单提交,登录中。。。")
        return scrapy.FormRequest.from_response(response,meta = {"cookiejar":response.meta["cookiejar"]},
                                                    headers = self.headers,formdate = formdate,callback = self.parse_after,
                                                    dont_filter=True)
    print('验证是否登录成功!!!')


    def parse_after(self,response):
        account = response.xpath('//a[@target="_blank"]/span/text()').extract_first()
        if account is None:
            print("登陆失败")
        else:
            print("登录成功")



01

01

02

02
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-3-13 00:50:59 | 显示全部楼层
麻烦把代码放进发帖的代码格式里,我不好复制出来测试,要么就把工程打包放到网盘
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-13 07:31:06 | 显示全部楼层
wongyusing 发表于 2018-3-13 00:50
麻烦把代码放进发帖的代码格式里,我不好复制出来测试,要么就把工程打包放到网盘
  1. import scrapy
  2. from PIL import Image
  3. import urllib

  4. class doubanloginspider(scrapy.Spider):
  5.     name = 'doubanlogin'
  6.     allowed_domain = ['douban.com']
  7.     #start_url = ['http://www.douban.com/']
  8.     headers = {"User-Agent":
  9.                    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36"}

  10.     '''请求登录界面'''
  11.     def start_requests(self):
  12.         print('请求登录界面')
  13.         return [scrapy.FormRequest(url = "https://accounts.douban.com/login",
  14.                 headers =self.headers ,meta = {"cookiejar":1},callback = self.parse_before,dont_filter=True)]

  15.     '''填写登录表单,查看验证码'''
  16.     def parse_before(self,response):
  17.         print("登录前表单填充")
  18.         captcha_id = response.xpath('//input[@type="hidden"]/@value').extract_first()
  19.         captcha_image_url = response.xpath('//img[@id="captcha_image"]/@src').extract_first()
  20.         if captcha_image_url is None:
  21.             print("无需验证码")
  22.             formdate = {'source':'None',

  23.                         'redir':'https://www.douban.com',
  24.                         'form_email':'15622902864',
  25.                         'form_password':'13750582863abc',
  26.                         'login':'登录'
  27.                         }
  28.         else:
  29.             print('需要验证码')
  30.             save_imag_path = "C:\\Users\lxx\Desktop\douban\douban\spiders\captcha.jpeg"
  31.             #urllib.request.urlretrieve(captcha_image_url,save_imag_path)
  32.             #urlopen = urllib.URLopener()
  33.             fp = urllib.request.urlopen(captcha_image_url)
  34.             data = fp.read()
  35.             f = open(save_imag_path + '1.jpeg', 'wb')
  36.             f.write(data)
  37.             f.close()


  38.             print("1 open!",captcha_image_url)   #图片地址正确
  39.             #im = Image.open("1.jpeg")
  40.             print("2 open!")
  41.             #m.show()
  42.             print("打开图片出错")

  43.             captcha_solution = input("请根据图片输入验证码")
  44.             print("打印")
  45.             formdate = {'source':'None',
  46.                         'redir':'https://www.douban.com',
  47.                         'form_email':'15622902864',
  48.                         'form_password':'13750582863abc',
  49.                         'captcha-solution':captcha_solution,
  50.                         'captcha-id':captcha_id,
  51.                         'login':'登录'
  52.                         }
  53.         print("表单提交,登录中。。。")
  54.         return scrapy.FormRequest.from_response(response,meta = {"cookiejar":response.meta["cookiejar"]},
  55.                                                     headers = self.headers,formdate = formdate,callback = self.parse_after,
  56.                                                     dont_filter=True)
  57.     print('验证是否登录成功!!!')


  58.     def parse_after(self,response):
  59.         account = response.xpath('//a[@target="_blank"]/span/text()').extract_first()
  60.         if account is None:
  61.             print("登陆失败")
  62.         else:
  63.             print("登录成功")
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-13 07:34:09 | 显示全部楼层

账号密码是修改过了得
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-28 13:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表