BELLE: 成为每个人的大语言模型引擎 BELLE

⭐⭐⭐☆☆ (3/5) 🧩 软硬件结合 已发布
LianjiaTech 3056 Stars 未知 BOM 完整度: /5 教程完整度: /5

项目简介

BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)


BELLE: Be Everyone's Large Language model Engine(开源中文对话大模型)

标签

项目特点

**开源中文指令数据集**:持续开放多种规模的中文指令数据集,包括单轮和多轮对话数据,如 1.5M、10M 等。
**多种微调模型**:基于 LLaMA、LLaMA2、BLOOMZ 等开源模型,提供经过中文指令微调的模型权重(以 diff 形式发布)。
**完整的训练代码**:提供简化的训练代码实现,集成 Deepspeed-Chat,支持全参数微调 (Fine-tune) 和 LoRA 微调。
**评估集与评估方法**:提供包含一千多条人工精校的测试集和对应的 GPT-4/ChatGPT 打分方法,用于评估模型效果。
**模型量化支持**:提供 GPTQ 量化代码,支持将模型量化到 4bit,便于在消费级硬件上运行。
**跨平台离线 App**:基于 Flutter 和 llama.cpp 开发了 ChatBELLE App,支持在 macOS、Windows、Android、iOS 等设备上离线运行量化后的模型。
**持续的研究报告**:定期发布技术报告,深入探讨训练数据、训练方法(如全参数微调 vs LoRA)对模型性能的影响。

技术规格

基础模型
模型规模
训练数据
微调方法
训练框架
量化方法
评估方法
应用平台

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
高性能 GPU (如 NVIDIA A100-40GB) 8 用于模型训练和微调
高性能 CPU (如 M1 Max) 1 用于本地运行量化模型
Python 环境 1 包含 PyTorch, Transformers, Deepspeed 等
Docker 环境 1 用于简化训练环境配置
中文指令数据集 1 从 Hugging Face 下载,如 `train_3.5M_CN`
基础模型 (LLaMA/LLaMA2) 1 需从 Meta 获取授权
BELLE 微调模型 (diff) 1 从 Hugging Face 下载

3D 模型

模型名称文件名文件
BELLE Llama2 13B chat BELLE-Llama2-13B-chat-0.4M
BELLE LLaMA EXT 13B BELLE-LLaMA-EXT-13B
BELLE LLaMA EXT 7B BELLE-LLaMA-EXT-7B
BELLE 7B 2M BELLE-7B-2M
BELLE VL BELLE-VL
Belle whisper large zh Belle-whisper-large-v3-zh

所需工具

工具用途是否必需
Python 运行训练和推理代码 ✅ 是
PyTorch 深度学习框架 ✅ 是
Transformers (Hugging Face) 加载和操作模型 ✅ 是
Deepspeed 分布式训练加速 ✅ 是
CUDA GPU 加速计算 ✅ 是
Docker 环境容器化 ▢ 推荐
Flutter SDK 开发跨平台 App ▢ 推荐
llama.cpp 在本地设备上运行量化模型 ▢ 推荐

能力画像

记忆与知识检索
1/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
5/5
动手与操作
5/5
狂热与坚持
5/5
创造与创新
5/5

所需技能

🔧 **动手能力**:需要能够配置深度学习环境(安装 CUDA、PyTorch、Deepspeed 等),运行训练脚本,处理模型权重文件(如 XOR 转换),以及部署模型到本地或云端。 💻 **编程能力**:需要精通 Python,熟悉 PyTorch 框架和 Transformers 库。了解分布式训练(Deepspeed)和模型量化(GPTQ)的原理与实现。 ⚡ **电子电路**:不涉及。

适用场景

**学术研究**:用于研究指令微调、数据增强、模型评估等大语言模型相关课题。
**企业应用**:在垂直领域(如客服、教育、金融)微调一个特定任务的中文对话模型。
**个人开发者**:在本地设备上运行一个离线、私密的个人 AI 助手。
**社区贡献**:为开源中文大模型生态贡献新的数据集、评估方法或模型。