语音数据集大全
voice_datasets
⭐⭐⭐☆☆ (3/5)
🧩 软硬件结合
已发布
项目简介
🔊 A comprehensive list of open-source datasets for voice and sound computing (95+ datasets).
这是一个专注于整理和汇总开源语音与音乐数据集的资源型项目,由开发者 Jim Schwoebel 在 2019 年 VOICE 峰会上首次发布。项目的核心价值在于解决了 AI 开发者、语音研究人员和音乐技术爱好者长期面临的“数据荒”问题——在训练语音识别、情感计算、说话人识别或音乐生成模型时,找到高质量、标注完善且可合法使用的开源数据集往往需要耗费大量时间。该项目将分散在网络各处的数据集系统性地归类为两大板块:语音数据集和音频事件/音乐数据集。
标签
项目特点
收录超过95个开源语音和音乐数据集,覆盖面广
数据集按类型分类组织(语音数据集和音频事件/音乐数据集)
每个数据集提供简要描述和原始来源链接
包含多种语言的数据集(英语、阿拉伯语、日语等)
涵盖多种应用场景(语音识别、情感识别、说话人分离、语音合成等)
数据集规模从数百条录音到数千小时不等,适合不同需求
技术规格
| 数据集总数 | |
|---|---|
| 主要分类 | |
| 语音数据集子类 | |
| 支持语言 | |
| 数据格式 | |
| 数据规模 |
项目资源
搜索资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| AESDD | 1 | — | 约500条录音,5位演员,情感识别 |
| ANAD | 1 | — | 1384条录音,3种情感 |
| Arabic Speech Corpus | 1 | — | 1.5GB,3.7小时,阿拉伯语语音合成 |
| AudioMNIST | 1 | — | 30000条录音,60位说话人,数字0-9 |
| Common Voice | 1 | — | 12GB,多语言众包语音数据 |
| CHIME | 1 | — | 约4GB,噪声环境语音识别 |
| CREMA-D | 1 | — | 7442条录音,91位演员 |
| IEMOCAP | 1 | — | 12小时,10位演员,5种情感 |
| LibriSpeech | 1 | — | 约1000小时,英文有声书朗读 |
| LJ Speech | 1 | — | 24小时,单说话人 |
| MSP Podcast Corpus | 1 | — | 100小时,100+说话人 |
| MuSe-CAR | 1 | — | 40小时,6000+录音,70+说话人 |
| Noisy Dataset | 1 | — | 48kHz,语音增强训练 |
| TESS | 1 | — | 2800条录音,2位女性演员,7种情感 |
| VoxCeleb | 1 | — | 100,000+条录音,1,251位名人 |
| VoxForge | 1 | — | 众包,多语言,语音识别 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| 音频播放器 | 试听数据集样本 | ▢ 推荐 |
| Python | 数据处理和模型训练 | ✅ 是 |
| 音频处理库(librosa等) | 音频特征提取 | ✅ 是 |
| 机器学习框架(PyTorch/TensorFlow) | 模型训练 | ✅ 是 |
能力画像
记忆与知识检索
3/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
1/5
动手与操作
1/5
狂热与坚持
2/5
创造与创新
1/5
项目图库
所需技能
🔧 **动手能力**:无需动手制作硬件,但需要能够下载和管理大型数据集
💻 **编程能力**:需要具备 Python 编程基础,能够使用音频处理库和机器学习框架
⚡ **电子电路**:无需电子电路知识
适用场景
语音识别(ASR)模型训练和评估
语音情感识别研究
说话人识别和说话人分离
语音合成(TTS)模型训练
语音增强和降噪研究
音频事件检测
多模态情感分析(结合文本、音频、视频)
学术研究和论文实验