FunASR
SHA-256工业级语音识别工具包,170倍实时速度,支持50+语言,集成了说话人分离、情感检测、流式识别和OpenAI兼容API。
超高速语音识别工具箱,比Whisper快26倍,支持说话人分离和情感识别。
核心功能
- 极致速度:GPU上可达340倍实时,比Whisper快26倍(Fun-ASR-Nano + vLLM)
- 50+语言支持:涵盖中英文、日语、韩语、粤语等,旗舰模型Fun-ASR-Nano支持31种语言
- 内置说话人分离:无需额外集成,一行代码即可得到每位说话人的时间戳和文本
- 情感检测:SenseVoice模型同时识别语音情感(高兴、悲伤等)
- 流式识别:Paraformer支持WebSocket实时流,适合会议、直播等场景
避坑指南
- •旗舰模型Fun-ASR-Nano需要GPU(如NVIDIA)才能获得最大速度;CPU上推荐使用SenseVoiceSmall。安装前请先确认已安装PyTorch(GPU版或CPU版)。多模型组合时需注意显存占用,建议从官方模型选择指南(model_selection.md)开始。
适用场景
- 会议纪要自动生成:同时识别多说话人并添加情感标注,输出带时间戳的文本
- 智能客服和语音助手:集成OpenAI兼容API,支持流式识别,响应迅速
详细介绍
FunASR 是一个面向生产环境的端到端语音识别工具包,最高可实现 340 倍实时速度(比 Whisper 快 26 倍),支持 50+ 语言,并内置说话人分离、情感检测和流式识别。与单模型方案如 Whisper 不同,FunASR 是一个完整的工具箱,您可以根据场景自由组合模型(例如使用 SenseVoice 进行 CPU 推理,Paraformer 用于低延迟流式),全部通过统一的 Python API 调用。它采用 MIT 开源协议,完全自托管,并提供 OpenAI 兼容的 API 服务器,方便集成 AI 智能体和外部应用。从批量转写到实时流,FunASR 以零云端成本提供企业级识别精度。
标签
快速上手
安装软件
打开下载的 dmg 文件,将应用拖入 Applications 文件夹
确保已安装Python 3.8+和PyTorch(按官网指引安装即可)
运行 `pip install funasr` 安装工具库
参考README中的Python代码示例,用AutoModel加载模型并调用generate方法识别音频
- 确保已安装Python 3.8+和PyTorch(按官网指引安装即可)
- 运行 `pip install funasr` 安装工具库
- 参考README中的Python代码示例,用AutoModel加载模型并调用generate方法识别音频
已提供 SHA-256 校验码,下载后可自行核对文件完整性
该校验码提取自 GitHub 官方 Release 页面
SHA256 校验码
fbc633301cc9deec54e28a4adf88ac04ab9f9a89fe82ec84cf4df90644ed5321该校验码提取自 GitHub Release 页面,下载后请自行核对文件完整性
本平台所有 SHA-256 校验码均提取自项目在 GitHub 官方 Release 页面发布的文件,未做任何修改。你可以通过 GitHub Releases 页面自行验证。
开源透明
查看 GitHub 源码卸载说明
运行 `pip uninstall funasr` 即可移除FunASR库。如需完全清理,请一并卸载手动安装的PyTorch和torchaudio。
无额外依赖
下载后即可直接使用,无需安装其他运行环境