语音数据集大全

项目简介

🔊 A comprehensive list of open-source datasets for voice and sound computing (95+ datasets).

这是一个专注于整理和汇总开源语音与音乐数据集的资源型项目，由开发者 Jim Schwoebel 在 2019 年 VOICE 峰会上首次发布。项目的核心价值在于解决了 AI 开发者、语音研究人员和音乐技术爱好者长期面临的“数据荒”问题——在训练语音识别、情感计算、说话人识别或音乐生成模型时，找到高质量、标注完善且可合法使用的开源数据集往往需要耗费大量时间。该项目将分散在网络各处的数据集系统性地归类为两大板块：语音数据集和音频事件/音乐数据集。

项目特点

收录超过95个开源语音和音乐数据集，覆盖面广

数据集按类型分类组织（语音数据集和音频事件/音乐数据集）

每个数据集提供简要描述和原始来源链接

包含多种语言的数据集（英语、阿拉伯语、日语等）

涵盖多种应用场景（语音识别、情感识别、说话人分离、语音合成等）

数据集规模从数百条录音到数千小时不等，适合不同需求

技术规格

数据集总数	95+
主要分类	语音数据集、音频事件/音乐数据集
语音数据集子类	情感识别、语音识别、说话人分离、语音合成等
支持语言	英语、阿拉伯语、日语、中文等
数据格式	音频文件（WAV、MP3等）+ 标注文件
数据规模	从数百条录音到数千小时不等

项目资源

GitHub 仓库 VOICE Summit 2019 演讲 Awesome_Diarization Common Voice 数据集 LibriSpeech LJ Speech

搜索资源

百度必应搜狗 Google DuckDuckGo GitHub Gitee B站 YouTube 知乎小红书微信 CSDN Hackster Hackaday Printables Instructables OSHWHub

物料清单 (BOM)

物料名称	数量	参考价格	备注
AESDD	1	—	约500条录音，5位演员，情感识别
ANAD	1	—	1384条录音，3种情感
Arabic Speech Corpus	1	—	1.5GB，3.7小时，阿拉伯语语音合成
AudioMNIST	1	—	30000条录音，60位说话人，数字0-9
Common Voice	1	—	12GB，多语言众包语音数据
CHIME	1	—	约4GB，噪声环境语音识别
CREMA-D	1	—	7442条录音，91位演员
IEMOCAP	1	—	12小时，10位演员，5种情感
LibriSpeech	1	—	约1000小时，英文有声书朗读
LJ Speech	1	—	24小时，单说话人
MSP Podcast Corpus	1	—	100小时，100+说话人
MuSe-CAR	1	—	40小时，6000+录音，70+说话人
Noisy Dataset	1	—	48kHz，语音增强训练
TESS	1	—	2800条录音，2位女性演员，7种情感
VoxCeleb	1	—	100,000+条录音，1,251位名人
VoxForge	1	—	众包，多语言，语音识别

能力画像

⚪ 记忆与知识检索: 3/5

🔵 逻辑推演: 1/5

⚪ 表达与交流: 1/5

⚪ 感知与观察: 1/5

⚪ 数理与计算: 1/5

⚪ 动手与操作: 1/5

⚪ 狂热与坚持: 2/5

⚪ 创造与创新: 1/5

项目图库

所需技能

🔧 **动手能力**：无需动手制作硬件，但需要能够下载和管理大型数据集 💻 **编程能力**：需要具备 Python 编程基础，能够使用音频处理库和机器学习框架 ⚡ **电子电路**：无需电子电路知识

适用场景

语音识别（ASR）模型训练和评估

语音情感识别研究

说话人识别和说话人分离

语音合成（TTS）模型训练

语音增强和降噪研究

音频事件检测

多模态情感分析（结合文本、音频、视频）

学术研究和论文实验

语音数据集大全 `voice_datasets`

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

语音数据集大全 voice_datasets

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

语音数据集大全 `voice_datasets`