sherpa-onnx
sherpa-onnx
嵌入AI
🧩 软硬件结合
已发布
项目简介
Speech-to-text, text-to-speech, speaker diarization, speech enhancement, source separation, and VAD using next-gen Kaldi
sherpa-onnx 是一个专注于本地化语音与音频处理的开源项目,旨在让开发者无需依赖云端服务,即可在各类设备上高效运行语音识别、语音合成、说话人识别、音频事件检测等核心功能。项目基于 ONNX Runtime 推理引擎,支持多种主流神经网络模型格式,技术栈覆盖 C++、Python、Java、JavaScript、Go、Rust 等十余种编程语言,并提供了 WebAssembly 版本,可在浏览器中直接运行。
标签
项目特点
完全本地运行,无需网络连接,保护用户隐私
支持流式和非流式语音识别
跨平台支持:Linux、macOS、Windows、Android、iOS、HarmonyOS、WebAssembly 等
多架构支持:x86、x86_64、ARM32/64、RISC-V、RK NPU、Qualcomm NPU、Ascend NPU
支持 12 种编程语言 API:C++、C、Python、JavaScript、Java、C#、Kotlin、Swift、Go、Dart、Rust、Pascal
提供 Huggingface 在线体验空间和预编译 Android APK
支持 NVIDIA Jetson 系列、Raspberry Pi 等嵌入式设备
技术规格
| 支持功能 | |
|---|---|
| 支持平台 | |
| 支持架构 | |
| 支持编程语言 | |
| 推理引擎 | |
| 特殊设备支持 |
项目资源
能力画像
⚪ 记忆与知识检索: 2/5
🔵 逻辑推演: 3/5
⚪ 表达与交流: 1/5
⚪ 感知与观察: 1/5
⚪ 数理与计算: 4/5
⚪ 动手与操作: 3/5
⚪ 狂热与坚持: 4/5
⚪ 创造与创新: 3/5
所需技能
🔧 **动手能力**:需要能够搭建开发环境、编译项目、部署到目标平台
💻 **编程能力**:需要至少熟悉一种支持的编程语言(如 Python、C++、Java),了解 ONNX 模型推理的基本概念
⚡ **电子电路**:不需要,纯软件项目
适用场景
在嵌入式设备(如 Raspberry Pi、Jetson Nano)上部署离线语音识别
在移动端(Android/iOS)实现实时语音转文字或语音合成
在 Web 浏览器中通过 WebAssembly 运行语音处理功能
构建多语种语音助手或智能客服系统
实现会议录音的说话人分离和语音转文字
音频标签和语种识别等多媒体内容分析