FasterWhisperGUI 基于OpenAI开源的多语言语音识别系统_V0.5.4 - 转载分享

VIP2

软件介绍

基于OpenAI宣布开源的多语言语音识别系统Whisper，市面上应该没有第二个比它更准确的多语言语音识别系统了，本软件还支持基于Demucs的人声提取（你应该也找不出第二个比它好的人声提取项目了）以及基于whisperX的字幕处理功能。如果你是英伟达显卡，处理设备记得选择cuda以加快速度，此外，国内下载模型速度很慢，推荐加载本地模型。当你面对这么多模型无法选择的时候，我只能说效果最好的是large-v3 model float32，追求效率的可以选择medium，想体验一下的选择small~

软件特点

将音频或视频文件转录为srt/txt/smi/vtt/lrc文件

将在线OpenAI-whisper模型转换为ct2格式

提供VAD模型和whisper模型的所有参数

现在，它支持whisperX

支持Demucs模型

支持whisper large-v3模型

支持调整VAD参数，这个功能可以筛选出没有声音的片段

支持FastWhiper模型的详细参数调整，这个功能很有用，有的时候提取结果不理想，通过调整这个就能改善

支持Demucs人声提取，先提取人声，之后将提取出来的音频来进行转换为文本，不仅结果更加精准，效率也更高

批量提取音频中的文本

基于whisperX的后字幕处理功能，处理完之后一定要记得导出

隐藏内容需要回复可以看见