YIRANNA 发表于 2020-11-21 08:34:45

想写一个需要登录网页的爬虫

怎么做一个需要输入密码才能查看的网页内容的爬虫
有没有人可以提供一些些帮助或者建议

fresh_python 发表于 2020-11-21 09:16:38

如果你只是想要简单的爬取一下,提交post请求的时候带上账号和密码,可以爬取到大部分的登录网页。
如果你想深入了解,那就去学习一下会话技术。

suchocolate 发表于 2020-11-21 09:23:45

import requests


def main():
    url = 'xxx'
    headers = {'user-agent': 'firefox'}
    r = requests.get(url, headers=headers)
    mm = input('输入密码查看网元内容')
    if mm == '你的密码':
      print(r.text)


if __name__ == '__main__':
    main()

笨鸟学飞 发表于 2020-11-21 12:04:40

浏览器抓包,一般是post,然后分析抓包内容,把cookies分析透彻了,post就行了

YIRANNA 发表于 2020-11-21 13:52:01

笨鸟学飞 发表于 2020-11-21 12:04
浏览器抓包,一般是post,然后分析抓包内容,把cookies分析透彻了,post就行了

有具体的例子吗?

YIRANNA 发表于 2020-11-21 13:52:32

suchocolate 发表于 2020-11-21 09:23


我试试

小无趣 发表于 2020-11-21 15:17:07

这就需要用到cookie了,利用cookie来进行保持会话,就像你登录鱼C一样,只要你的会话在,你每次登录就不需要密码

YIRANNA 发表于 2020-11-21 15:51:55

小无趣 发表于 2020-11-21 15:17
这就需要用到cookie了,利用cookie来进行保持会话,就像你登录鱼C一样,只要你的会话在,你每次登录就不需 ...

具体有什么操作或者教程吗?
有的话能发一下链接吗?
谢谢了

suchocolate 发表于 2020-11-21 16:14:42

YIRANNA 发表于 2020-11-21 13:52
我试试

你描述的是 输入密码后看内容,但看别人回答,你的意思好像是登陆一个需要输入账号和密码才能查看内容的网页,这是两个概念。
你要登陆哪个网站,想看什么内容,具体的网站需求写出来。

braga 发表于 2020-11-21 22:10:42

最简单还是用webdriver

lengyue869 发表于 2020-11-21 23:10:03

selenium

skyrimz 发表于 2020-11-23 13:09:36

请求的时候加上带cookie的header
页: [1]
查看完整版本: 想写一个需要登录网页的爬虫