鱼C论坛

 找回密码
 立即注册
查看: 2504|回复: 11

想写一个需要登录网页的爬虫

[复制链接]
发表于 2020-11-21 08:34:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
怎么做一个需要输入密码才能查看的网页内容的爬虫
有没有人可以提供一些些帮助或者建议
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-21 09:16:38 | 显示全部楼层
如果你只是想要简单的爬取一下,提交post请求的时候带上账号和密码,可以爬取到大部分的登录网页。
如果你想深入了解,那就去学习一下会话技术。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-21 09:23:45 | 显示全部楼层
import requests


def main():
    url = 'xxx'
    headers = {'user-agent': 'firefox'}
    r = requests.get(url, headers=headers)
    mm = input('输入密码查看网元内容')
    if mm == '你的密码':
        print(r.text)


if __name__ == '__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-21 12:04:40 From FishC Mobile | 显示全部楼层
浏览器抓包,一般是post,然后分析抓包内容,把cookies分析透彻了,post就行了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-21 13:52:01 | 显示全部楼层
笨鸟学飞 发表于 2020-11-21 12:04
浏览器抓包,一般是post,然后分析抓包内容,把cookies分析透彻了,post就行了

有具体的例子吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-21 13:52:32 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-21 15:17:07 | 显示全部楼层
这就需要用到cookie了,利用cookie来进行保持会话,就像你登录鱼C一样,只要你的会话在,你每次登录就不需要密码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-11-21 15:51:55 | 显示全部楼层
小无趣 发表于 2020-11-21 15:17
这就需要用到cookie了,利用cookie来进行保持会话,就像你登录鱼C一样,只要你的会话在,你每次登录就不需 ...

具体有什么操作或者教程吗?
有的话能发一下链接吗?
谢谢了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-21 16:14:42 | 显示全部楼层


你描述的是 输入密码后看内容,但看别人回答,你的意思好像是登陆一个需要输入账号和密码才能查看内容的网页,这是两个概念。
你要登陆哪个网站,想看什么内容,具体的网站需求写出来。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-21 22:10:42 | 显示全部楼层
最简单还是用webdriver
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-21 23:10:03 | 显示全部楼层
selenium
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-23 13:09:36 | 显示全部楼层
请求的时候加上带cookie的header
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-17 13:58

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表