语音识别(ASR)论文优选：粤语语料集Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New D

最新推荐文章于 2024-04-23 10:35:15 发布

我叫永强

最新推荐文章于 2024-04-23 10:35:15 发布

阅读量2.2k

收藏 5

点赞数

分类专栏：语音识别论文文章标签：语音识别人工智能机器学习深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/liyongqiang2420/article/details/122416249

版权

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset

本文为香港科技大学在2022.01.07更新的文章，主要对粤语的开源数据集进行总结并开源新的数据集MDCC，具体的链接

https://arxiv.org/pdf/2201.02419.pdf

注：本文主要开源粤语识别数据集，较为简单。

1 背景

伴随着基于神经网络的语音识别的性能不断提升、开源数据的不断增多，语音社区逐渐扩大。但语音识别在低资源语言的语料依然匮乏，因此本文设计和提供了粤语语料MDCC。

2 详细设计

本文先统计目前开源的粤语语料的详细数据，具体如table1所示。因此本文设计了数据集Multi-Domain Cantonese Corpus (MDCC) 。该数据包括以下场景： philosophy, politics, education, culture, lifestyle and family。该数据集制作流程：1）获取粤语语音，使用VAD进行切句子；2）使用G

最低0.47元/天解锁文章

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
1
评论
语音识别(ASR)论文优选：粤语语料集Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New D

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请
复制链接

扫一扫

我叫永强 CSDN认证博客专家 CSDN认证企业博客

200: 原创

5万+: 周排名

13万+: 总排名

22万+: 访问

: 等级

2377: 积分

266: 粉丝

86: 获赞

61: 评论

437: 收藏

写文章

热门文章

C++学习小疑问：类的名称能否和命名空间的名称相同？ 7040
网络牛网:苏剑林和他的科学空间 6704
语音开源项目优选：免费配音网站15.ai 6155
ElegantLatex：优美的 LATEX 模板（对文章，书籍进行排版） 5246
语音识别（ASR)论文优选：WeNet 4025

分类专栏

NLP 3篇
语音识别综述 19篇
语音合成综述 44篇
语音识别论文 23篇
随想 3篇
语音开源项目 9篇
声纹识别 1篇
机器学习 3篇
语音信号处理论文 4篇
语音 1篇
TaintDroid 5篇
语音合成论文 104篇
编程 1篇

最新评论

语音识别(ASR)论文优选：粤语语料集Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New D
维生素續C: 你好，请问如何获取数据集
LLM文章阅读：Baichuan 2 干货
qq_37131779: 报告没有提及使用的是Megatron-LM + deepspeed，来源是哪里？
语音开源项目优选：免费配音网站15.ai
艾克丶艾达: 朋友，这个网站上个月我还能上，突然就上不去了，打开只能选择跳转推特还是Patreon，知道是什么情况吗
语音合成（speech synthesis）方向一：双重学习Dual Learning
小乐777: 真的是太棒了
语音合成（TTS)论文优选:A Mask-based Model for Mandarin Chinese Polyphone Disambiguation
pongzjp: 你好，博主，有个疑问，在训练的时候，我们是知道哪些字是多音字，所以用到了Mask矩阵，在测试的时候，还需要用到Mask吗

大家在看

10.8k Star! 推荐一款智慧园区出入口综合管理平台 422

最新文章

快上车，LLM专列：想要的资源统统给你准备好了
LLM文章阅读：Baichuan 2 干货
Is ChatGPT a general-purpose natural language processing task solver?

目录

目录

分类专栏

NLP 3篇

语音识别综述 19篇

语音合成综述 44篇

语音识别论文 23篇

语音开源项目 9篇

声纹识别 1篇

机器学习 3篇

语音信号处理论文 4篇

TaintDroid 5篇

语音合成论文 104篇

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

打赏作者

我叫永强 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

您的余额不足，请更换扫码支付或充值

打赏作者

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

聚圣源上海女排名单梓起名子大师免费起名网 fc游戏下载公司房产起名起名为什么不能带一望尘莫及是什么意思 2019猪年的宝宝起名徐州交通违章查询武侠大宗师康熙字典在线起名查字 qq空间技巧凤凰卫视中文台猪小儿起乳名春色满园关不住最早的纸币叫什么员工生日祝福语属猴起什么名字よつのは起名字大全免费取名2019 龙腾世纪2下载青春最好时百度云远东控股集团郸城县人民政府理想之城剧情介绍去广告包卜篮球个人企业公司起名振字辈男孩起名字起名字应该遵循的原则淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故已致13死高中生被打伤下体休学邯郸通报李梦为奥运任务婉拒WNBA邀请 19岁小伙救下5人后溺亡多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警 315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人？周杰伦一审败诉网易房客欠租失踪房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高？胖东来员工每周单休无小长假 “开封王婆”爆火：促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化