sherpa-onnx

sherpa-onnx

嵌入AI 🧩 软硬件结合 已发布
k2-fsa 5740 Stars 未知 BOM 完整度: 0/5 教程完整度: 0/5

项目简介

Speech-to-text, text-to-speech, speaker diarization, speech enhancement, source separation, and VAD using next-gen Kaldi


sherpa-onnx 是一个专注于本地化语音与音频处理的开源项目,旨在让开发者无需依赖云端服务,即可在各类设备上高效运行语音识别、语音合成、说话人识别、音频事件检测等核心功能。项目基于 ONNX Runtime 推理引擎,支持多种主流神经网络模型格式,技术栈覆盖 C++、Python、Java、JavaScript、Go、Rust 等十余种编程语言,并提供了 WebAssembly 版本,可在浏览器中直接运行。

标签

项目特点

完全本地运行,无需网络连接,保护用户隐私
支持流式和非流式语音识别
跨平台支持:Linux、macOS、Windows、Android、iOS、HarmonyOS、WebAssembly 等
多架构支持:x86、x86_64、ARM32/64、RISC-V、RK NPU、Qualcomm NPU、Ascend NPU
支持 12 种编程语言 API:C++、C、Python、JavaScript、Java、C#、Kotlin、Swift、Go、Dart、Rust、Pascal
提供 Huggingface 在线体验空间和预编译 Android APK
支持 NVIDIA Jetson 系列、Raspberry Pi 等嵌入式设备

技术规格

支持功能
支持平台
支持架构
支持编程语言
推理引擎
特殊设备支持

项目资源

能力画像

⚪ 记忆与知识检索: 2/5
🔵 逻辑推演: 3/5
⚪ 表达与交流: 1/5
⚪ 感知与观察: 1/5
⚪ 数理与计算: 4/5
⚪ 动手与操作: 3/5
⚪ 狂热与坚持: 4/5
⚪ 创造与创新: 3/5

所需技能

🔧 **动手能力**:需要能够搭建开发环境、编译项目、部署到目标平台 💻 **编程能力**:需要至少熟悉一种支持的编程语言(如 Python、C++、Java),了解 ONNX 模型推理的基本概念 ⚡ **电子电路**:不需要,纯软件项目

适用场景

在嵌入式设备(如 Raspberry Pi、Jetson Nano)上部署离线语音识别
在移动端(Android/iOS)实现实时语音转文字或语音合成
在 Web 浏览器中通过 WebAssembly 运行语音处理功能
构建多语种语音助手或智能客服系统
实现会议录音的说话人分离和语音转文字
音频标签和语种识别等多媒体内容分析