鱼C论坛

 找回密码
 立即注册
查看: 3407|回复: 8

关于pixiv网站爬取的问题

[复制链接]
发表于 2020-6-9 19:06:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
网上看了很多别人写的程序
要么用不了
要么出错找不到原因
要么就是不用登录的,不登录爬取的图片又有限制
于是就想自己写,但是登录时遇到很大的问题,我把登录需要的参数传过去了,但是后面requests.text传回来的网页源码显示我没登录
这是我写的代码,卡在了登录这一步好久了,希望看到的大神能指导一下(网址是https://accounts.pixiv.net/login?lang=zh,需要翻墙才能登录)
  1. import requests
  2. from bs4 import BeautifulSoup
  3. from urllib.parse import urlencode
  4. from requests.packages.urllib3.exceptions import InsecureRequestWarning

  5. requests.packages.urllib3.disable_warnings(InsecureRequestWarning)




  6. def login():
  7.     headers = {
  8.         'User-Agent': 'Mozilla / 5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/83.0.4103.97Safari/537.36',
  9.         # 'referer': 'https://accounts.pixiv.net/login?return_to=https%3A%2F%2Fwww.pixiv.net%2F&lang=zh&source=pc&view_type=page'
  10.         'Referer': 'https://accounts.pixiv.net/login?lang=zh&source=pc&view_type=page&ref=wwwtop_accounts_index'
  11.     }
  12.     # session = requests.session()
  13.     # response = session.get('https://accounts.pixiv.net/login?lang=zh',headers=headers,verify=False)
  14.     response = requests.get('https://accounts.pixiv.net/login?lang=zh',headers=headers,verify=False)
  15.     print(response.status_code)
  16.     bs = BeautifulSoup(response.text,'html.parser')
  17.     post_key = bs.find('div',id='old-login').find('input',type='hidden')['value']
  18.     print(post_key)

  19.     data = {
  20.         'post_key': post_key,
  21.         'captcha':'',
  22.         'g_recaptcha_response':'',
  23.         'ref':'',
  24.         'return_to': 'https://www.pixiv.net/',
  25.         'source': 'pc',
  26.         'pixiv_id': '@qq.com',
  27.         'password': ''

  28.     }

  29.     res = requests.post('https://accounts.pixiv.net/api/login?lang=zh',data=data,headers=headers,verify=False)
  30.     print(res.cookies)
  31.     print(type(res.cookies))
  32.     return res.cookies

  33. def get_id():
  34.     response_list = []
  35.     cookies = login()
  36.     headers2 = {
  37.         'User-Agent': 'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/83.0.4103.97Safari/537.36',
  38.         'Accept-Language': 'zh-CN,zh',
  39.         'Referer':'https://accounts.pixiv.net/login?return_to=https%3A%2F%2Fwww.pixiv.net%2F&lang=zh&source=pc&view_type=page'
  40.     }

  41.     # url = 'https://www.pixiv.net/ranking.php?mode=daily_r18&p=1&format=json'
  42.     data = {
  43.         'mode':'daily_r18'
  44.     }
  45.     url = 'https://www.pixiv.net/ranking.php?'+urlencode(data)
  46.     print(url)
  47.     response = requests.get(url,headers=headers2,data=data,cookies=cookies,verify=False)
  48.     print(response.text)
  49.     # global false, null, true
  50.     # false = 'False'
  51.     # null = 'None'
  52.     # true = 'True'
  53.     res = response.json()
  54.     print(res)
  55.     list_id = res['contents']
  56.     for i in list_id:
  57.         pic_id = i['illust_id']
  58.         pic_name = i[0]['title']
  59.         response_list.append([pic_name,pic_id])
  60.     return response_list





  61. def main():
  62.     pic_id = get_id()



  63. main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-6-9 19:08:12 | 显示全部楼层
要是能够解决登录问题,后续的爬取应该没什么问题了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-9 19:11:00 | 显示全部楼层
上面的data里的post_key参数可以在登录页面的网页源码里直接获取,python小白,好多东西不会,请各位大佬指点一下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-9 20:10:25 | 显示全部楼层
q1274701999 发表于 2020-6-9 19:08
要是能够解决登录问题,后续的爬取应该没什么问题了

被你这个帖子提醒....我突然想起我都快忘记我P站账号了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-9 20:11:52 From FishC Mobile | 显示全部楼层
q1274701999 发表于 2020-6-9 19:11
上面的data里的post_key参数可以在登录页面的网页源码里直接获取,python小白,好多东西不会,请各位大佬指 ...

用无头浏览器
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-9 20:18:23 | 显示全部楼层
P站免爬墙第三方工具登录方法:https://www.sohu.com/a/397863419 ... 590843479898dQ57VKi
各位大佬帮忙看一下啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-9 20:19:11 | 显示全部楼层

跟浏览器没关系吧,我用的谷歌浏览器
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-10 09:15:02 | 显示全部楼层
经过我自己的一番捣鼓,最终登陆成功了!!
应该是我cookies的提取出了问题
我看了别人的代码,用chrome的一个提取cookies的插件,提取出页面的cookies,然后保存到本地
访问网页的时候读取里面所有的cookies
  1.         for i in range(len(cookie)):
  2.             if cookie[i]["domain"] == '.pixiv.net':
  3.                 cookies_json[cookie[i]["name"]] = cookie[i]["value"]
复制代码

取里面的某一段cookie
把cookies添加到session.cookies里
  1. requests.utils.add_dict_to_cookiejar(session.cookies,cookies)
复制代码

其实这一段我也不明白什么意思
然后就可以模拟登录网页了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-10 18:03:17 | 显示全部楼层
用selenium
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-5 12:19

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表