py-xiaozhi

py-xiaozhi

ROS、AI语音助手、ESP32 🧩 软硬件结合 已发布
huangjunsen0406 3327 Stars MIT BOM 完整度: 3/5 教程完整度: 0/5

项目简介

开源AI助手生态,集成MCP、多模态、IoT及跨平台语音。


开源AI助手生态系统,集成MCP、多模态工作流、物联网支持以及跨平台语音交互。

标签

项目特点

**实时语音 AI**:采用 Opus 编解码器,支持自动帧检测(RFC 6716 TOC 解析)、异步流式传输,延迟低于 20ms。
**多模态视觉**:集成摄像头捕获与视觉-语言模型,支持图像理解和场景感知。
**MCP 工具生态**:模块化 JSON-RPC 2.0 工具服务器,包含音乐播放器、摄像头、截图、应用管理、天气、音量控制等工具。
**跨平台部署**:支持 Windows 10+、macOS 10.15+、Linux(x86_64 和 ARM),针对树莓派和边缘计算板进行了优化。
**多种 UI 模式**:提供 PySide6 + QML 图形界面、命令行界面和 GPIO 界面,适应桌面、无头服务器和嵌入式环境。
**离线唤醒词**:基于 Sherpa-ONNX 的设备端关键词检测,支持自定义唤醒词。
**IoT 与具身 AI 就绪**:提供 GPIO 接口,用于机器人控制、硬件驱动和传感器集成。
**WebSocket / MQTT 双协议**:支持 WSS/TLS 加密传输和自动重连。
**插件架构**:事件驱动的异步设计,清晰的依赖注入,可扩展的插件系统。

技术规格

Python 版本
操作系统
内存
处理器
存储
音频
网络
可选功能

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
Python 3.10-3.12 1 运行环境
音频设备(麦克风和扬声器) 1 必需
摄像头(可选) 1 用于视觉功能
Sherpa-ONNX 模型(可选) 1 用于语音唤醒

所需工具

计算机(3D建模) 必需
摄像头模块

能力画像

⚪ 记忆与知识检索: 2/5
🔵 逻辑推演: 3/5
⚪ 表达与交流: 1/5
⚪ 感知与观察: 2/5
⚪ 数理与计算: 3/5
⚪ 动手与操作: 3/5
⚪ 狂热与坚持: 3/5
⚪ 创造与创新: 4/5

所需技能

🔧 **动手能力**:能够配置开发环境、安装依赖、运行程序,并可能涉及硬件(如树莓派、摄像头)的搭建。 💻 **编程能力**:需要 Python 编程基础,理解异步编程(async/await)、事件驱动架构、依赖注入等概念。能够阅读和修改代码,扩展 MCP 工具或插件。 ⚡ **电子电路**:如果涉及 GPIO 接口和 IoT 设备控制,需要基本的电子电路知识。

适用场景

**智能语音助手**:在桌面或嵌入式设备上构建一个支持语音对话、多模态交互的 AI 助手。
**IoT 设备控制**:通过语音或 MCP 工具控制智能家居设备、机器人等硬件。
**边缘 AI 应用**:在树莓派、Jetson Nano 等边缘设备上部署,实现本地语音唤醒和 AI 推理。
**多模态交互研究**:作为研究平台,探索语音、视觉和工具调用的结合。
**教育与学习**:学习 Python 异步编程、AI 框架设计、跨平台应用开发。