爬取知乎首页热榜并带cookies登录

wcq15759797758 · 发表于 2021-7-2 15:23:36

您需要登录才可以下载或查看，没有账号？立即注册

x

我自己爬的时候加了代理IP

import requests # 网络请求模块
import time # 时间模块
import random # 随机模块
from bs4 import BeautifulSoup
json_url = 'https://www.zhihu.com/hot'
cookies ='这里输入您的登录cookies信息'
# 创建RequestsCookieJar对象，用于设置cookies信息
cookies_jar = requests.cookies.RequestsCookieJar()
for cookie in cookies.split(';'):
key, value = cookie.split('=', 1)
cookies_jar.set(key, value) # 将cookies保存RequestsCookieJar当中
class Crawl():
def __init__(self):
# 创建头部信息
self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36',
'Referer': 'https://www.zhihu.com/',}
def get_json(self,json_url):
response = requests.get(json_url, headers=self.headers,cookies=cookies_jar)
soup = BeautifulSoup(response.text,'lxml')
title = soup.findAll('h2',{'class':"HotItem-title"})
for i in title:
item = {}
item['title'] = i.get_text() #爬取个标题
print(item)
if __name__ == '__main__':
c = Crawl() # 创建爬虫类对象
text = c.get_json(json_url)
time.sleep(random.randint(2,4)) # 随机产生获取json请求的间隔时间'''

复制代码

wcq15759797758 · 发表于 2021-7-2 15:25:49

hornwong · 发表于 2021-7-2 17:15:55

fish_nian · 发表于 2021-7-2 18:55:00

不错不错

FC童梦 · 发表于 2021-7-2 19:16:52

看到标题本身还有点兴奋的

wcq15759797758 · 发表于 2021-7-2 19:18:19

FC童梦发表于 2021-7-2 19:16
看到标题本身还有点兴奋的

比较懒就爬了标题

ridiculum · 发表于 2021-7-2 19:33:15

学习一个

超级玛尼哄 · 发表于 2021-7-2 20:29:08

学习了~

Asss-whom · 发表于 2021-7-3 10:58:20

学习了~

特利迦奥特曼 · 发表于 2021-7-3 14:10:11

1835575828 · 发表于 2021-7-3 15:37:37

邓CX · 发表于 2021-7-3 16:13:38

芬里尔ming · 发表于 2021-7-5 21:55:44

顶顶

Kayko · 发表于 2021-7-6 11:12:03

牛啊

Kayko · 发表于 2021-7-6 11:20:56

牛牛牛牛牛牛牛牛

Linxs_ · 发表于 2021-7-6 13:47:01

学习了~

日月轮回之龙息 · 发表于 2021-7-7 08:46:50

大佬啊

刘鑫豪 · 发表于 2021-7-7 10:12:12

所以这样做了有什么用呢？

#大甲鱼 · 发表于 2021-7-7 10:22:28

厉害了大佬！

混沌夜漩船长V · 发表于 2021-7-7 11:30:13

学习学习

账号		自动登录	找回密码
密码			立即注册

[技术交流] 爬取知乎首页热榜并带cookies登录