py-xiaozhi
py-xiaozhi
ROS、AI语音助手、ESP32
🧩 软硬件结合
已发布
项目简介
开源AI助手生态,集成MCP、多模态、IoT及跨平台语音。
开源AI助手生态系统,集成MCP、多模态工作流、物联网支持以及跨平台语音交互。
标签
项目特点
**实时语音 AI**:采用 Opus 编解码器,支持自动帧检测(RFC 6716 TOC 解析)、异步流式传输,延迟低于 20ms。
**多模态视觉**:集成摄像头捕获与视觉-语言模型,支持图像理解和场景感知。
**MCP 工具生态**:模块化 JSON-RPC 2.0 工具服务器,包含音乐播放器、摄像头、截图、应用管理、天气、音量控制等工具。
**跨平台部署**:支持 Windows 10+、macOS 10.15+、Linux(x86_64 和 ARM),针对树莓派和边缘计算板进行了优化。
**多种 UI 模式**:提供 PySide6 + QML 图形界面、命令行界面和 GPIO 界面,适应桌面、无头服务器和嵌入式环境。
**离线唤醒词**:基于 Sherpa-ONNX 的设备端关键词检测,支持自定义唤醒词。
**IoT 与具身 AI 就绪**:提供 GPIO 接口,用于机器人控制、硬件驱动和传感器集成。
**WebSocket / MQTT 双协议**:支持 WSS/TLS 加密传输和自动重连。
**插件架构**:事件驱动的异步设计,清晰的依赖注入,可扩展的插件系统。
技术规格
| Python 版本 | |
|---|---|
| 操作系统 | |
| 内存 | |
| 处理器 | |
| 存储 | |
| 音频 | |
| 网络 | |
| 可选功能 |
项目资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| Python 3.10-3.12 | 1 | — | 运行环境 |
| 音频设备(麦克风和扬声器) | 1 | — | 必需 |
| 摄像头(可选) | 1 | — | 用于视觉功能 |
| Sherpa-ONNX 模型(可选) | 1 | — | 用于语音唤醒 |
所需工具
计算机(3D建模)
必需
摄像头模块
能力画像
⚪ 记忆与知识检索: 2/5
🔵 逻辑推演: 3/5
⚪ 表达与交流: 1/5
⚪ 感知与观察: 2/5
⚪ 数理与计算: 3/5
⚪ 动手与操作: 3/5
⚪ 狂热与坚持: 3/5
⚪ 创造与创新: 4/5
项目图库
所需技能
🔧 **动手能力**:能够配置开发环境、安装依赖、运行程序,并可能涉及硬件(如树莓派、摄像头)的搭建。
💻 **编程能力**:需要 Python 编程基础,理解异步编程(async/await)、事件驱动架构、依赖注入等概念。能够阅读和修改代码,扩展 MCP 工具或插件。
⚡ **电子电路**:如果涉及 GPIO 接口和 IoT 设备控制,需要基本的电子电路知识。
适用场景
**智能语音助手**:在桌面或嵌入式设备上构建一个支持语音对话、多模态交互的 AI 助手。
**IoT 设备控制**:通过语音或 MCP 工具控制智能家居设备、机器人等硬件。
**边缘 AI 应用**:在树莓派、Jetson Nano 等边缘设备上部署,实现本地语音唤醒和 AI 推理。
**多模态交互研究**:作为研究平台,探索语音、视觉和工具调用的结合。
**教育与学习**:学习 Python 异步编程、AI 框架设计、跨平台应用开发。