语音数据集大全 voice_datasets

⭐⭐⭐☆☆ (3/5) 🧩 软硬件结合 已发布
jim-schwoebel 1060 Stars 未知 BOM 完整度: /5 教程完整度: /5

项目简介

🔊 A comprehensive list of open-source datasets for voice and sound computing (95+ datasets).


这是一个专注于整理和汇总开源语音与音乐数据集的资源型项目,由开发者 Jim Schwoebel 在 2019 年 VOICE 峰会上首次发布。项目的核心价值在于解决了 AI 开发者、语音研究人员和音乐技术爱好者长期面临的“数据荒”问题——在训练语音识别、情感计算、说话人识别或音乐生成模型时,找到高质量、标注完善且可合法使用的开源数据集往往需要耗费大量时间。该项目将分散在网络各处的数据集系统性地归类为两大板块:语音数据集和音频事件/音乐数据集。

标签

项目特点

收录超过95个开源语音和音乐数据集,覆盖面广
数据集按类型分类组织(语音数据集和音频事件/音乐数据集)
每个数据集提供简要描述和原始来源链接
包含多种语言的数据集(英语、阿拉伯语、日语等)
涵盖多种应用场景(语音识别、情感识别、说话人分离、语音合成等)
数据集规模从数百条录音到数千小时不等,适合不同需求

技术规格

数据集总数
主要分类
语音数据集子类
支持语言
数据格式
数据规模

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
AESDD 1 约500条录音,5位演员,情感识别
ANAD 1 1384条录音,3种情感
Arabic Speech Corpus 1 1.5GB,3.7小时,阿拉伯语语音合成
AudioMNIST 1 30000条录音,60位说话人,数字0-9
Common Voice 1 12GB,多语言众包语音数据
CHIME 1 约4GB,噪声环境语音识别
CREMA-D 1 7442条录音,91位演员
IEMOCAP 1 12小时,10位演员,5种情感
LibriSpeech 1 约1000小时,英文有声书朗读
LJ Speech 1 24小时,单说话人
MSP Podcast Corpus 1 100小时,100+说话人
MuSe-CAR 1 40小时,6000+录音,70+说话人
Noisy Dataset 1 48kHz,语音增强训练
TESS 1 2800条录音,2位女性演员,7种情感
VoxCeleb 1 100,000+条录音,1,251位名人
VoxForge 1 众包,多语言,语音识别

所需工具

工具用途是否必需
音频播放器 试听数据集样本 ▢ 推荐
Python 数据处理和模型训练 ✅ 是
音频处理库(librosa等) 音频特征提取 ✅ 是
机器学习框架(PyTorch/TensorFlow) 模型训练 ✅ 是

能力画像

记忆与知识检索
3/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
1/5
动手与操作
1/5
狂热与坚持
2/5
创造与创新
1/5

所需技能

🔧 **动手能力**:无需动手制作硬件,但需要能够下载和管理大型数据集 💻 **编程能力**:需要具备 Python 编程基础,能够使用音频处理库和机器学习框架 ⚡ **电子电路**:无需电子电路知识

适用场景

语音识别(ASR)模型训练和评估
语音情感识别研究
说话人识别和说话人分离
语音合成(TTS)模型训练
语音增强和降噪研究
音频事件检测
多模态情感分析(结合文本、音频、视频)
学术研究和论文实验