BELLE: 成为每个人的大语言模型引擎
BELLE
⭐⭐⭐☆☆ (3/5)
🧩 软硬件结合
已发布
项目简介
BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)
BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)
标签
项目特点
**开源中文指令数据集**:持续开放多种规模的中文指令数据集,包括单轮和多轮对话数据,如 1.5M、10M 等。
**多种微调模型**:基于 LLaMA、LLaMA2、BLOOMZ 等开源模型,提供经过中文指令微调的模型权重(以 diff 形式发布)。
**完整的训练代码**:提供简化的训练代码实现,集成 Deepspeed-Chat,支持全参数微调 (Fine-tune) 和 LoRA 微调。
**评估集与评估方法**:提供包含一千多条人工精校的测试集和对应的 GPT-4/ChatGPT 打分方法,用于评估模型效果。
**模型量化支持**:提供 GPTQ 量化代码,支持将模型量化到 4bit,便于在消费级硬件上运行。
**跨平台离线 App**:基于 Flutter 和 llama.cpp 开发了 ChatBELLE App,支持在 macOS、Windows、Android、iOS 等设备上离线运行量化后的模型。
**持续的研究报告**:定期发布技术报告,深入探讨训练数据、训练方法(如全参数微调 vs LoRA)对模型性能的影响。
技术规格
| 基础模型 | |
|---|---|
| 模型规模 | |
| 训练数据 | |
| 微调方法 | |
| 训练框架 | |
| 量化方法 | |
| 评估方法 | |
| 应用平台 |
项目资源
搜索资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| 高性能 GPU (如 NVIDIA A100-40GB) | 8 | — | 用于模型训练和微调 |
| 高性能 CPU (如 M1 Max) | 1 | — | 用于本地运行量化模型 |
| Python 环境 | 1 | — | 包含 PyTorch, Transformers, Deepspeed 等 |
| Docker 环境 | 1 | — | 用于简化训练环境配置 |
| 中文指令数据集 | 1 | — | 从 Hugging Face 下载,如 `train_3.5M_CN` |
| 基础模型 (LLaMA/LLaMA2) | 1 | — | 需从 Meta 获取授权 |
| BELLE 微调模型 (diff) | 1 | — | 从 Hugging Face 下载 |
3D 模型
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| Python | 运行训练和推理代码 | ✅ 是 |
| PyTorch | 深度学习框架 | ✅ 是 |
| Transformers (Hugging Face) | 加载和操作模型 | ✅ 是 |
| Deepspeed | 分布式训练加速 | ✅ 是 |
| CUDA | GPU 加速计算 | ✅ 是 |
| Docker | 环境容器化 | ▢ 推荐 |
| Flutter SDK | 开发跨平台 App | ▢ 推荐 |
| llama.cpp | 在本地设备上运行量化模型 | ▢ 推荐 |
能力画像
记忆与知识检索
1/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
5/5
动手与操作
5/5
狂热与坚持
5/5
创造与创新
5/5
项目图库
所需技能
🔧 **动手能力**:需要能够配置深度学习环境(安装 CUDA、PyTorch、Deepspeed 等),运行训练脚本,处理模型权重文件(如 XOR 转换),以及部署模型到本地或云端。
💻 **编程能力**:需要精通 Python,熟悉 PyTorch 框架和 Transformers 库。了解分布式训练(Deepspeed)和模型量化(GPTQ)的原理与实现。
⚡ **电子电路**:不涉及。
适用场景
**学术研究**:用于研究指令微调、数据增强、模型评估等大语言模型相关课题。
**企业应用**:在垂直领域(如客服、教育、金融)微调一个特定任务的中文对话模型。
**个人开发者**:在本地设备上运行一个离线、私密的个人 AI 助手。
**社区贡献**:为开源中文大模型生态贡献新的数据集、评估方法或模型。