爬取知乎首页热榜并带cookies登录
我自己爬的时候加了代理IP{:10_254:}import requests# 网络请求模块
import time # 时间模块
import random # 随机模块
from bs4 import BeautifulSoup
json_url = 'https://www.zhihu.com/hot'
cookies ='这里输入您的登录cookies信息'
# 创建RequestsCookieJar对象,用于设置cookies信息
cookies_jar = requests.cookies.RequestsCookieJar()
for cookie in cookies.split(';'):
key, value = cookie.split('=', 1)
cookies_jar.set(key, value)# 将cookies保存RequestsCookieJar当中
class Crawl():
def __init__(self):
# 创建头部信息
self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36',
'Referer': 'https://www.zhihu.com/',}
def get_json(self,json_url):
response = requests.get(json_url, headers=self.headers,cookies=cookies_jar)
soup = BeautifulSoup(response.text,'lxml')
title = soup.findAll('h2',{'class':"HotItem-title"})
for i in title:
item = {}
item['title'] = i.get_text() #爬取个标题
print(item)
if __name__ == '__main__':
c = Crawl() # 创建爬虫类对象
text = c.get_json(json_url)
time.sleep(random.randint(2,4))# 随机产生获取json请求的间隔时间''' {:5_95:} {:10_257:}不错不错 看到标题本身还有点兴奋的{:10_245:} FC童梦 发表于 2021-7-2 19:16
看到标题本身还有点兴奋的
比较懒就爬了标题
学习一个 学习了~ 学习了~ 。 好 {:5_102:} 顶顶 牛啊 牛牛牛牛牛牛牛牛 学习了~ 大佬啊 所以这样做了有什么用呢? 厉害了大佬! 学习学习
页:
[1]
2