鱼C论坛

 找回密码
 立即注册
查看: 7783|回复: 25

[技术交流] 爬取知乎首页热榜并带cookies登录

[复制链接]
发表于 2021-7-2 15:23:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我自己爬的时候加了代理IP

  1. import requests  # 网络请求模块
  2. import time      # 时间模块
  3. import random    # 随机模块
  4. from bs4 import BeautifulSoup
  5. json_url = 'https://www.zhihu.com/hot'
  6. cookies ='这里输入您的登录cookies信息'
  7. # 创建RequestsCookieJar对象,用于设置cookies信息
  8. cookies_jar = requests.cookies.RequestsCookieJar()
  9. for cookie in cookies.split(';'):
  10.     key, value = cookie.split('=', 1)
  11.     cookies_jar.set(key, value)  # 将cookies保存RequestsCookieJar当中
  12. class Crawl():
  13.     def __init__(self):
  14.         # 创建头部信息
  15.         self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36',
  16.                         'Referer': 'https://www.zhihu.com/',}
  17.     def get_json(self,json_url):
  18.         response = requests.get(json_url, headers=self.headers,cookies=cookies_jar)
  19.         soup = BeautifulSoup(response.text,'lxml')
  20.         title = soup.findAll('h2',{'class':"HotItem-title"})
  21.         for i in title:
  22.             item = {}
  23.             item['title'] = i.get_text() #爬取个标题
  24.             print(item)
  25. if __name__ == '__main__':
  26.     c = Crawl()                # 创建爬虫类对象
  27.     text = c.get_json(json_url)
  28.     time.sleep(random.randint(2,4))  # 随机产生获取json请求的间隔时间'''
复制代码

评分

参与人数 1荣誉 +1 收起 理由
yukari123 + 1 无条件支持楼主!

查看全部评分

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-7-2 15:25:49 | 显示全部楼层
132a2d107c1ce148e7ee1f64491138f.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-2 17:15:55 | 显示全部楼层

回帖奖励 +1 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-2 18:55:00 | 显示全部楼层

回帖奖励 +1 鱼币

不错不错
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-2 19:16:52 | 显示全部楼层

回帖奖励 +1 鱼币

看到标题本身还有点兴奋的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-7-2 19:18:19 | 显示全部楼层
FC童梦 发表于 2021-7-2 19:16
看到标题本身还有点兴奋的

比较懒就爬了标题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-2 19:33:15 | 显示全部楼层

回帖奖励 +1 鱼币

学习一个
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-2 20:29:08 | 显示全部楼层

回帖奖励 +1 鱼币

学习了~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-3 10:58:20 | 显示全部楼层

回帖奖励 +1 鱼币

学习了~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-3 14:10:11 | 显示全部楼层

回帖奖励 +1 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-3 15:37:37 | 显示全部楼层

回帖奖励 +1 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-3 16:13:38 | 显示全部楼层

回帖奖励 +1 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-5 21:55:44 | 显示全部楼层

回帖奖励 +1 鱼币

顶顶
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-6 11:12:03 | 显示全部楼层

回帖奖励 +1 鱼币

牛啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-6 11:20:56 | 显示全部楼层
牛牛牛牛牛牛牛牛
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-6 13:47:01 | 显示全部楼层

回帖奖励 +1 鱼币

学习了~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-7 08:46:50 | 显示全部楼层

回帖奖励 +1 鱼币

大佬啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-7 10:12:12 | 显示全部楼层

回帖奖励 +1 鱼币

所以这样做了有什么用呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-7 10:22:28 | 显示全部楼层

回帖奖励 +1 鱼币

厉害了大佬!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-7-7 11:30:13 From FishC Mobile | 显示全部楼层

回帖奖励 +1 鱼币

学习学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-2 05:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表