爬取知乎首页热榜并带cookies登录,Python交流,编程语言专区,鱼C论坛

wcq15759797758 发表于 2021-7-2 15:23:36

爬取知乎首页热榜并带cookies登录

我自己爬的时候加了代理IP{:10_254:}

import requests# 网络请求模块
import time    # 时间模块
import random # 随机模块
from bs4 import BeautifulSoup
json_url = 'https://www.zhihu.com/hot'
cookies ='这里输入您的登录cookies信息'
# 创建RequestsCookieJar对象，用于设置cookies信息
cookies_jar = requests.cookies.RequestsCookieJar()
for cookie in cookies.split(';'):
key, value = cookie.split('=', 1)
cookies_jar.set(key, value)# 将cookies保存RequestsCookieJar当中
class Crawl():
def __init__(self):
   # 创建头部信息
   self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36',
                     'Referer': 'https://www.zhihu.com/',}
def get_json(self,json_url):
   response = requests.get(json_url, headers=self.headers,cookies=cookies_jar)
   soup = BeautifulSoup(response.text,'lxml')
   title = soup.findAll('h2',{'class':"HotItem-title"})
   for i in title:
         item = {}
         item['title'] = i.get_text() #爬取个标题
         print(item)
if __name__ == '__main__':
c = Crawl()             # 创建爬虫类对象
text = c.get_json(json_url)
time.sleep(random.randint(2,4))# 随机产生获取json请求的间隔时间'''

wcq15759797758 发表于 2021-7-2 15:25:49

hornwong 发表于 2021-7-2 17:15:55

{:5_95:}

fish_nian 发表于 2021-7-2 18:55:00

{:10_257:}不错不错

FC童梦 发表于 2021-7-2 19:16:52

看到标题本身还有点兴奋的{:10_245:}

wcq15759797758 发表于 2021-7-2 19:18:19

FC童梦发表于 2021-7-2 19:16
看到标题本身还有点兴奋的

比较懒就爬了标题

ridiculum 发表于 2021-7-2 19:33:15

学习一个

超级玛尼哄 发表于 2021-7-2 20:29:08

学习了~

Asss-whom 发表于 2021-7-3 10:58:20

学习了~

特利迦奥特曼 发表于 2021-7-3 14:10:11

。

1835575828 发表于 2021-7-3 15:37:37

好

邓CX 发表于 2021-7-3 16:13:38

{:5_102:}

芬里尔ming 发表于 2021-7-5 21:55:44

顶顶

Kayko 发表于 2021-7-6 11:12:03

牛啊

Kayko 发表于 2021-7-6 11:20:56

牛牛牛牛牛牛牛牛

Linxs_ 发表于 2021-7-6 13:47:01

学习了~

日月轮回之龙息 发表于 2021-7-7 08:46:50

大佬啊

刘鑫豪 发表于 2021-7-7 10:12:12

所以这样做了有什么用呢？

#大甲鱼 发表于 2021-7-7 10:22:28

厉害了大佬！

混沌夜漩船长V 发表于 2021-7-7 11:30:13

学习学习

页: [1] 2

鱼C论坛's Archiver

爬取知乎首页热榜并带cookies登录