sherpa-onnx - iMakething

项目简介

Speech-to-text, text-to-speech, speaker diarization, speech enhancement, source separation, and VAD using next-gen Kaldi

sherpa-onnx 是一个专注于本地化语音与音频处理的开源项目，旨在让开发者无需依赖云端服务，即可在各类设备上高效运行语音识别、语音合成、说话人识别、音频事件检测等核心功能。项目基于 ONNX Runtime 推理引擎，支持多种主流神经网络模型格式，技术栈覆盖 C++、Python、Java、JavaScript、Go、Rust 等十余种编程语言，并提供了 WebAssembly 版本，可在浏览器中直接运行。

项目特点

完全本地运行，无需网络连接，保护用户隐私

支持流式和非流式语音识别

跨平台支持：Linux、macOS、Windows、Android、iOS、HarmonyOS、WebAssembly 等

多架构支持：x86、x86_64、ARM32/64、RISC-V、RK NPU、Qualcomm NPU、Ascend NPU

支持 12 种编程语言 API：C++、C、Python、JavaScript、Java、C#、Kotlin、Swift、Go、Dart、Rust、Pascal

提供 Huggingface 在线体验空间和预编译 Android APK

支持 NVIDIA Jetson 系列、Raspberry Pi 等嵌入式设备

技术规格

支持功能	ASR、TTS、说话人分离、说话人识别/验证、语种识别、音频标签、VAD、语音增强、关键词识别、声源分离
支持平台	Android、iOS、Windows、macOS、Linux、HarmonyOS、WebAssembly
支持架构	x86、x86_64、ARM32、ARM64、RISC-V、RK NPU、Qualcomm NPU、Ascend NPU、Axera NPU
支持编程语言	C++、C、Python、JavaScript、Java、C#、Kotlin、Swift、Go、Dart、Rust、Pascal
推理引擎	ONNX Runtime
特殊设备支持	NVIDIA Jetson Orin NX、Jetson Nano B01、Raspberry Pi、RV1126、LicheePi4A、VisionFive 2、旭日X3派、爱芯派、RK3588、SpacemiT-K1/K3

项目资源

GitHub 仓库 Discord 社区 Huggingface 在线体验空间预编译 Android APK

搜索资源

百度必应搜狗 Google DuckDuckGo GitHub Gitee B站 YouTube 知乎小红书微信 CSDN Hackster Hackaday Printables Instructables OSHWHub

能力画像

⚪ 记忆与知识检索: 2/5

🔵 逻辑推演: 3/5

⚪ 表达与交流: 1/5

⚪ 感知与观察: 1/5

⚪ 数理与计算: 4/5

⚪ 动手与操作: 3/5

⚪ 狂热与坚持: 4/5

⚪ 创造与创新: 3/5

所需技能

🔧 **动手能力**：需要能够搭建开发环境、编译项目、部署到目标平台 💻 **编程能力**：需要至少熟悉一种支持的编程语言（如 Python、C++、Java），了解 ONNX 模型推理的基本概念 ⚡ **电子电路**：不需要，纯软件项目

适用场景

在嵌入式设备（如 Raspberry Pi、Jetson Nano）上部署离线语音识别

在移动端（Android/iOS）实现实时语音转文字或语音合成

在 Web 浏览器中通过 WebAssembly 运行语音处理功能

构建多语种语音助手或智能客服系统

实现会议录音的说话人分离和语音转文字

音频标签和语种识别等多媒体内容分析

sherpa-onnx sherpa-onnx