多次调用，whisper model会不会重复加载？

blackantt · 发表于 2024-10-23 08:32:46

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

多次调用whisper，whisper model会不会重复加载？程序执行完后，whisper model 会从内存中自动卸载掉吗？

FishC · 发表于 2024-10-23 08:37:57

在使用 Whisper 模型时，是否会重复加载取决于你如何管理模型的加载和调用。

1. **多次调用是否会重复加载**：如果在每次调用时都重新初始化模型，那么模型会被重复加载。这通常会导致性能问题，因为加载模型是一个耗时的操作。为了避免这种情况，你可以在程序开始时加载模型，并在后续的调用中重复使用已加载的模型实例。

2. **程序执行完后模型是否会自动卸载**：当程序执行完毕或进程结束时，内存中的所有数据，包括加载的模型，都会被操作系统回收。因此，模型会从内存中卸载。

为了提高效率，建议在程序的生命周期内保持模型的加载状态，避免在每次调用时重新加载。这样可以显著减少加载时间，提高程序的响应速度。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

blackantt · 发表于 2024-10-23 08:55:40

“在程序开始时加载模型，并在后续的调用中重复使用已加载的模型实例” ，这个的代码大概是什么？

FishC · 发表于 2024-10-23 09:05:32

blackantt 发表于 2024-10-23 08:55
“在程序开始时加载模型，并在后续的调用中重复使用已 ...

要在程序开始时加载模型并在后续调用中重复使用，可以使用以下代码结构作为参考：

# 假设使用的是 PyTorch 和 OpenAI 的 Whisper 模型
import torch
from transformers import WhisperModel, WhisperProcessor
# 初始化模型和处理器
model_name = "openai/whisper-base"
processor = WhisperProcessor.from_pretrained(model_name)
model = WhisperModel.from_pretrained(model_name)
# 定义一个函数来处理音频输入
def transcribe_audio(audio_input):
# 预处理音频输入
inputs = processor(audio_input, return_tensors="pt").input_values
# 使用模型进行推理
with torch.no_grad():
logits = model(inputs).logits
# 解码输出
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
return transcription
# 示例调用
audio_input = "path_to_audio_file.wav"
transcription = transcribe_audio(audio_input)
print(transcription)

复制代码

在这个例子中，模型和处理器在程序开始时加载，并在 `transcribe_audio` 函数中被重复使用。这样可以避免在每次调用时重新加载模型，提高效率。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

blackantt · 发表于 2024-10-23 10:51:33

FishC 发表于 2024-10-23 09:05
要在程序开始时加载模型并在后续调用中重复使用，可以使用以下代码结构作为参考：

如果我用 work_space_batch.py 来调用 work_space_demo.py 来遍历处理多个文件。要怎么改这两个文件呢？

work_space_batch.py 如下

import os
for home, dirs, files in os.walk("/home/dengz/pytvzhen-master/test/"):
for name in files:
fullname = os.path.join(home, name)
print(name)
print(fullname)
code = f"python work_space_demo.py {fullname}"
os.system(code)

复制代码

work_space_demo.py 大致如下：

from faster_whisper import WhisperModel
from sys import argv
def transcribeAudioEn(path, modelName="medium", languate="fr",srtFilePathAndName="VIDEO_FILENAME.srt"):
model = WhisperModel(modelName, device1, compute_type="auto", download_root="faster-whisper_models", local_files_only=False)
print("Whisper model loaded.")
segments, _ = model.transcribe(audio=path, language=languate, word_timestamps=True)
# 转换为srt的Subtitle对象
pass
print("Transcription complete.")
transcribeAudioEn(argv[1])

复制代码

FishC · 发表于 2024-10-23 10:57:59

blackantt 发表于 2024-10-23 10:51
如果我用 work_space_batch.py 来调用 work_space_dem ...

要修改这两个文件以便 `work_space_batch.py` 调用 `work_space_demo.py` 来遍历处理多个文件，并确保模型只加载一次，可以按照以下步骤进行：

### 修改 `work_space_batch.py`

你可以保持 `work_space_batch.py` 不变，因为它的功能是遍历文件并调用 `work_space_demo.py`。不过，为了提高效率，可以考虑在 `work_space_batch.py` 中直接调用 `work_space_demo.py` 中的函数，而不是通过命令行调用。

### 修改 `work_space_demo.py`

为了避免每次处理文件时都重新加载模型，可以将模型加载放在一个全局范围内，或者在一个类中进行管理。以下是一个简单的修改示例：

from faster_whisper import WhisperModel
from sys import argv
# 全局加载模型
model = WhisperModel("medium", device="cpu", compute_type="auto", download_root="faster-whisper_models", local_files_only=False)
print("Whisper model loaded.")
def transcribeAudioEn(path, languate="fr", srtFilePathAndName="VIDEO_FILENAME.srt"):
segments, _ = model.transcribe(audio=path, language=languate, word_timestamps=True)
# 转换为srt的Subtitle对象
pass
print("Transcription complete.")
if __name__ == "__main__":
transcribeAudioEn(argv[1])

复制代码

### 整合调用

如果你希望在 `work_space_batch.py` 中直接调用 `work_space_demo.py` 的函数，可以这样做：

import os
from work_space_demo import transcribeAudioEn
for home, dirs, files in os.walk("/home/dengz/pytvzhen-master/test/"):
for name in files:
fullname = os.path.join(home, name)
print(name)
print(fullname)
transcribeAudioEn(fullname)

复制代码

这样，模型只会在 `work_space_demo.py` 中加载一次，并在每次调用 `transcribeAudioEn` 时重复使用。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册