XiaoClaw AI语音助手
xiaoclaw
项目简介
Local AI Agent firmware running on ESP32-S3, integrating offline voice wake-up with cloud TTS, supporting local LLM infe
XiaoClaw 是一个运行在 ESP32-S3 芯片上的 AI 语音助手固件,它将语音交互与本地 AI Agent 大脑融为一体,在单个低功耗设备上实现了从“听到”到“思考”再到“行动”的完整闭环。项目核心由两层构成:语音 I/O 层(xiaozhi)负责离线唤醒词检测、流式语音识别与合成、OLED/LCD 显示以及 Wi-Fi 通信;Agent 大脑层(mimiclaw)则集成了 LLM 推理、工具调用、记忆管理和自主任务执行引擎。XiaoClaw 最突出的特点是具备自学习能力——多步骤任务会被自动结晶为可复用的技能,并按照 L0 到 L4 的层级进行记忆管理。它还内置了 Cron 定时调度器,支持自主执行周期性任务,并通过 MCP 客户端动态接入远程工具。技术栈方面,项目基于 ESP-IDF 框架开发,语音部分使用了 ESP-SR 离线唤醒和 OPUS 音频编解码,Agent 层支持 Anthropic Claude 和 OpenAI GPT 等主流大模型,记忆系统基于 SPIFFS 文件系统实现长期存储。XiaoClaw 解决了传统智能音箱依赖云端、响应延迟高、隐私风险大等问题,特别适合需要本地化、低延迟、高隐私保护的智能家居控制、个人助理和边缘计算场景。硬件上要求 ESP32-S3 开发板搭配 32MB Flash 和 8MB PSRAM,兼容 70 多种主流开发板,如 ESP32-S3-BOX3、M5Stack CoreS3 等,开发者可通过 menuconfig 快速配置 Wi-Fi 和 API 密钥,上手门槛低。
标签
项目特点
技术规格
| 主控芯片 | |
|---|---|
| 最低Flash | |
| 最低PSRAM | |
| 音频编解码 | |
| 唤醒词引擎 | |
| LLM API | |
| 搜索API | |
| 通信协议 | |
| 显示支持 | |
| 电源管理 | |
| 开发框架 | |
| 构建工具 |
项目资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| ESP32-S3 开发板(如ESP32-S3-BOX3) | 1 | — | 需32MB Flash + 8MB PSRAM |
| 音频编解码器+麦克风+扬声器模块 | 1 | — | 支持OPUS编解码 |
| OLED/LCD 显示屏 | 1 | — | 可选,支持emoji显示 |
| 锂电池+电源管理模块 | 1 | — | 可选,支持电池管理 |
| USB数据线 | 1 | — | 用于烧录和调试 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| ESP-IDF v5.5+ | 固件开发与编译环境 | ✅ 是 |
| Python 3.10+ | 构建脚本与MCP服务器 | ✅ 是 |
| CMake 3.16+ | 构建系统 | ✅ 是 |
| 串口调试工具 | 烧录与监控 | ✅ 是 |
| 3D打印机 | 打印外壳(可选) | ▢ 推荐 |
| 焊台 | 焊接电子元件(可选) | ▢ 推荐 |