voicebox
SHA-256开源AI语音工作室,可在本地克隆声音、生成语音、听写输入,是 ElevenLabs 和 WisprFlow 的免费替代品。
本地运行的开源语音工作室,克隆、生成、听写一体,隐私无忧。
核心功能
- 支持7种TTS引擎(Qwen3-TTS、Chatterbox等),23种语言
- 零样本语音克隆,从几秒音频即可克隆
- 全局热键听写,支持任何应用的文本框
- 为AI智能体提供语音输出(MCP协议)
- 后处理效果器(变调、混响、延迟等)
避坑指南
- •首次使用时需要下载模型(大小约2-8GB),请确保网络稳定。2. Linux 目前无预编译二进制,需从源码构建(参考官方指南)。3. 部分TTS引擎(如Chatterbox Turbo)需要较高GPU显存(建议4GB+),CPU也可运行但速度较慢。4. 全局听写热键在部分Linux桌面环境可能需额外配置。
适用场景
- 内容创作者:为视频、播客生成多语言配音
- 开发者:为个人AI助手或聊天机器人添加语音能力
- 无障碍辅助:用听写代替键盘输入,提高效率
详细介绍
Voicebox 是一个本地优先的 AI 语音工作室,是 ElevenLabs 和 WisprFlow 的开源替代品。它能够从几秒的音频中克隆声音,支持 23 种语言、7 个 TTS 引擎的语音生成,通过全局热键进行听写输入,并为支持 MCP 的 AI 智能体提供语音输出。所有处理都在本地运行,确保完全隐私。与云端巨头不同,Voicebox 集成了输入和输出,并通过内置本地大模型进行精炼和个性配置,无需联网即可完成完整的语音 I/O 流程。
标签
快速上手
安装软件
打开下载的 dmg 文件,将应用拖入 Applications 文件夹
根据操作系统下载对应安装包(macOS请下载DMG,Windows下载MSI)
双击安装包,按提示完成安装(macOS将应用拖入Applications文件夹)
首次启动后,应用会自动下载必需模型,稍等片刻即可开始使用
- 根据操作系统下载对应安装包(macOS请下载DMG,Windows下载MSI)
- 双击安装包,按提示完成安装(macOS将应用拖入Applications文件夹)
- 首次启动后,应用会自动下载必需模型,稍等片刻即可开始使用
已提供 SHA-256 校验码,下载后可自行核对文件完整性
该校验码提取自 GitHub 官方 Release 页面
SHA256 校验码
44d883cde3c3179907f31af54908727a0d7e3a4f99f6bad8be791fbc810d6fc3该校验码提取自 GitHub Release 页面,下载后请自行核对文件完整性
本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件,未做任何修改。你可以通过 GitHub Releases 页面自行验证。
开源透明
查看 GitHub 源码卸载说明
macOS:将 Voicebox 从 Applications 文件夹拖入废纸篓。Windows:通过“设置 > 应用 > 应用和功能”找到 Voicebox 并卸载。
无额外依赖
下载后即可直接使用,无需安装其他运行环境