BELLE: 成为每个人的大语言模型引擎

项目简介

BELLE: Be Everyone's Large Language model Engine（开源中文对话大模型）

项目特点

**开源中文指令数据集**：持续开放多种规模的中文指令数据集，包括单轮和多轮对话数据，如 1.5M、10M 等。

**多种微调模型**：基于 LLaMA、LLaMA2、BLOOMZ 等开源模型，提供经过中文指令微调的模型权重（以 diff 形式发布）。

**完整的训练代码**：提供简化的训练代码实现，集成 Deepspeed-Chat，支持全参数微调 (Fine-tune) 和 LoRA 微调。

**评估集与评估方法**：提供包含一千多条人工精校的测试集和对应的 GPT-4/ChatGPT 打分方法，用于评估模型效果。

**模型量化支持**：提供 GPTQ 量化代码，支持将模型量化到 4bit，便于在消费级硬件上运行。

**跨平台离线 App**：基于 Flutter 和 llama.cpp 开发了 ChatBELLE App，支持在 macOS、Windows、Android、iOS 等设备上离线运行量化后的模型。

**持续的研究报告**：定期发布技术报告，深入探讨训练数据、训练方法（如全参数微调 vs LoRA）对模型性能的影响。

技术规格

基础模型	LLaMA, LLaMA2, BLOOMZ-7B1-mt
模型规模	7B, 13B
训练数据	自生成的多样化中文指令数据（单轮/多轮对话）
微调方法	全参数微调 (Fine-tune), LoRA
训练框架	Deepspeed-Chat
量化方法	GPTQ (4bit)
评估方法	基于 GPT-4/ChatGPT 的自动打分
应用平台	macOS, Windows, Android, iOS (通过 ChatBELLE App)

项目资源

GitHub 仓库 Hugging Face 模型库 (BelleGroup) Hugging Face 模型库 (BELLE-2) Hugging Face 数据集 (BelleGroup) ChatBELLE App 下载 Discord 社区研究报告 (docs/)

搜索资源

百度必应搜狗 Google DuckDuckGo GitHub Gitee B站 YouTube 知乎小红书微信 CSDN Hackster Hackaday Printables Instructables OSHWHub

物料清单 (BOM)

物料名称	数量	参考价格	备注
高性能 GPU (如 NVIDIA A100-40GB)	8	—	用于模型训练和微调
高性能 CPU (如 M1 Max)	1	—	用于本地运行量化模型
Python 环境	1	—	包含 PyTorch, Transformers, Deepspeed 等
Docker 环境	1	—	用于简化训练环境配置
中文指令数据集	1	—	从 Hugging Face 下载，如 `train_3.5M_CN`
基础模型 (LLaMA/LLaMA2)	1	—	需从 Meta 获取授权
BELLE 微调模型 (diff)	1	—	从 Hugging Face 下载

3D 模型

模型名称	文件名	文件
BELLE-Llama2-13B-chat-0.4M (Hugging Face)	`BELLE-Llama2-13B-chat-0.4M`
BELLE-LLaMA-EXT-13B (Hugging Face)	`BELLE-LLaMA-EXT-13B`
BELLE-LLaMA-EXT-7B (Hugging Face)	`BELLE-LLaMA-EXT-7B`
BELLE-7B-2M (Hugging Face)	`BELLE-7B-2M`
BELLE-VL (Hugging Face)	`BELLE-VL`
Belle-whisper-large-v3-zh (Hugging Face)	`Belle-whisper-large-v3-zh`

能力画像

⚪ 记忆与知识检索: 1/5

🔵 逻辑推演: 1/5

⚪ 表达与交流: 1/5

⚪ 感知与观察: 1/5

🔵 数理与计算: 5/5

🔵 动手与操作: 5/5

🔵 狂热与坚持: 5/5

🔵 创造与创新: 5/5

项目图库

所需技能

🔧 **动手能力**：需要能够配置深度学习环境（安装 CUDA、PyTorch、Deepspeed 等），运行训练脚本，处理模型权重文件（如 XOR 转换），以及部署模型到本地或云端。 💻 **编程能力**：需要精通 Python，熟悉 PyTorch 框架和 Transformers 库。了解分布式训练（Deepspeed）和模型量化（GPTQ）的原理与实现。 ⚡ **电子电路**：不涉及。

适用场景

**学术研究**：用于研究指令微调、数据增强、模型评估等大语言模型相关课题。

**企业应用**：在垂直领域（如客服、教育、金融）微调一个特定任务的中文对话模型。

**个人开发者**：在本地设备上运行一个离线、私密的个人 AI 助手。

**社区贡献**：为开源中文大模型生态贡献新的数据集、评估方法或模型。

BELLE: 成为每个人的大语言模型引擎 `BELLE`

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

3D 模型

能力画像

项目图库

所需技能

适用场景

BELLE: 成为每个人的大语言模型引擎 BELLE

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

3D 模型

能力画像

项目图库

所需技能

适用场景

BELLE: 成为每个人的大语言模型引擎 `BELLE`