py-xiaozhi - iMakething

项目简介

开源AI助手生态，集成MCP、多模态、IoT及跨平台语音。

开源AI助手生态系统，集成MCP、多模态工作流、物联网支持以及跨平台语音交互。

项目特点

**实时语音 AI**：采用 Opus 编解码器，支持自动帧检测（RFC 6716 TOC 解析）、异步流式传输，延迟低于 20ms。

**多模态视觉**：集成摄像头捕获与视觉-语言模型，支持图像理解和场景感知。

**MCP 工具生态**：模块化 JSON-RPC 2.0 工具服务器，包含音乐播放器、摄像头、截图、应用管理、天气、音量控制等工具。

**跨平台部署**：支持 Windows 10+、macOS 10.15+、Linux（x86_64 和 ARM），针对树莓派和边缘计算板进行了优化。

**多种 UI 模式**：提供 PySide6 + QML 图形界面、命令行界面和 GPIO 界面，适应桌面、无头服务器和嵌入式环境。

**离线唤醒词**：基于 Sherpa-ONNX 的设备端关键词检测，支持自定义唤醒词。

**IoT 与具身 AI 就绪**：提供 GPIO 接口，用于机器人控制、硬件驱动和传感器集成。

**WebSocket / MQTT 双协议**：支持 WSS/TLS 加密传输和自动重连。

**插件架构**：事件驱动的异步设计，清晰的依赖注入，可扩展的插件系统。

技术规格

Python 版本	3.10 - 3.12
操作系统	Windows 10+, macOS 10.15+, Linux
内存	至少 4GB（推荐 8GB+）
处理器	支持 AVX 指令集的现代 CPU
存储	至少 2GB 可用磁盘空间（用于模型文件和缓存）
音频	支持 16kHz 采样率的音频设备
网络	稳定的互联网连接（用于 AI 服务和在线功能）
可选功能	语音唤醒需下载 Sherpa-ONNX 模型；摄像头功能需摄像头设备和 OpenCV 支持

项目资源

GitHub 仓库 Gitee 镜像 AtomGit 镜像项目文档 xiaozhi-desktop Bilibili 演示视频零基础到小智客户端（视频教程）贡献指南

搜索资源

百度必应搜狗 Google DuckDuckGo GitHub Gitee B站 YouTube 知乎小红书微信 CSDN Hackster Hackaday Printables Instructables OSHWHub

物料清单 (BOM)

物料名称	数量	参考价格	备注
Python 3.10-3.12	1	—	运行环境
音频设备（麦克风和扬声器）	1	—	必需
摄像头（可选）	1	—	用于视觉功能
Sherpa-ONNX 模型（可选）	1	—	用于语音唤醒

能力画像

⚪ 记忆与知识检索: 2/5

🔵 逻辑推演: 3/5

⚪ 表达与交流: 1/5

⚪ 感知与观察: 2/5

⚪ 数理与计算: 3/5

⚪ 动手与操作: 3/5

⚪ 狂热与坚持: 3/5

⚪ 创造与创新: 4/5

项目图库

所需技能

🔧 **动手能力**：能够配置开发环境、安装依赖、运行程序，并可能涉及硬件（如树莓派、摄像头）的搭建。 💻 **编程能力**：需要 Python 编程基础，理解异步编程（async/await）、事件驱动架构、依赖注入等概念。能够阅读和修改代码，扩展 MCP 工具或插件。 ⚡ **电子电路**：如果涉及 GPIO 接口和 IoT 设备控制，需要基本的电子电路知识。

适用场景

**智能语音助手**：在桌面或嵌入式设备上构建一个支持语音对话、多模态交互的 AI 助手。

**IoT 设备控制**：通过语音或 MCP 工具控制智能家居设备、机器人等硬件。

**边缘 AI 应用**：在树莓派、Jetson Nano 等边缘设备上部署，实现本地语音唤醒和 AI 推理。

**多模态交互研究**：作为研究平台，探索语音、视觉和工具调用的结合。

**教育与学习**：学习 Python 异步编程、AI 框架设计、跨平台应用开发。

py-xiaozhi `py-xiaozhi`

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

py-xiaozhi py-xiaozhi

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

py-xiaozhi `py-xiaozhi`