科大讯飞荣获OpenASR国际低资源多语种语音识别挑战赛冠军
11月10日,由美国国家标准与技术研究院NIST发起的OpenASR挑战赛落下帷幕,科大讯飞-中科大语音及语言信息处理国家工程实验室联合团队参加了所有15个语种受限赛道和7个语种非受限赛道,全部取得第一。
继前不久荣获多语言理解评测XTREME冠军之后,科大讯飞在多语种领域再次取得突破,在探索人机交互更自然、人人沟通无障碍的征程中又迈出了坚实的一步,也为中国多语种语音语言技术赶超国际先进水平、中国智能制造的全球化奠定了坚实的基础。
从大语种向低资源多语种拓展
近年来,随着深度学习技术的进步,汉语、英语等大语种语音识别技术日趋成熟,并获得广泛的应用。
相比之下,小语种语音识别因其语音数据资源难以获取、难以标注、难以评估、语言专家稀缺等原因,已经成为世界性的研究难题,距离实用门槛仍有较大差距。
与NIST此前组织的其他赛事相比,OpenASR更加关注小语种语音技术,探索如何使用少量的数据达到较好的效果,同时考察低资源语音识别基础算法在多个语种上的推广性。自2020年启动以来,吸引了加拿大蒙特利尔信息科技研究中心、新加坡科技研究局、清华大学、腾讯等国内外知名研究机构和企业参与其中。
本次比赛共包含15个语种,涵盖受限赛道、受限附加赛道和非受限赛道。
表1:15个语种信息
其中受限赛道为各参赛单位必选项,每个语种只能使用组委会提供的10小时标注语音识别数据,受限附加赛道在受限赛道的基础上允许使用开源的预训练模型,而非受限赛道可以使用受限数据以外的数据。
科大讯飞-中科大联合团队在比赛中提出了基于语音和文本统一空间表达的半监督语音识别框架(Unified Spatial Representation Semi-supervised ASR,USRS-ASR),获此佳绩也验证了该算法良好的推广性。
图1:联合团队全部15个语种受限赛道成绩
图2:联合团队参加的7个语种非受限赛道成绩
领先技术亮相国际赛场
对于低资源语种而言,除了语音数据量较小外,其发音词典大小、语料丰富性、标注准确度都远不及常规水平。本次比赛中各个语种数据主要来自电话信道,口语化特征十分明显,对话风格非常自由,也使得语音识别难上加难。
在受限赛道上,由于每个语种只有10小时语音数据,如何使用少量文本数据,利用无监督的方法增加语音训练数据的多样性至关重要。
科大讯飞-中科大联合团队创新运用Flow-TTS语音合成进行训练数据扩增,并使用语音属性解耦技术保证合成语音的多样性。结果显示,使用上述无监督数据扩增方案,能够稳定、显著地提升低资源语音识别任务的效果。
而在非受限赛道上,虽然参赛者可以利用公开的语音数据,但数据总量仍只有数百小时,而且语音数据和文本数据的量级差距十分明显,这对于端到端识别框架来说,弊端更为明显。
为了在端到端统一框架下,充分使用少量语音数据和海量文本数据,科大讯飞-中科大联合团队提出了基于语音和文本统一空间表达的半监督语音识别框架USRS-ASR。
首先,对于海量文本数据的使用,创新设计了文本掩码语言模型任务、合成数据语音识别两个目标,两个任务联合训练以充分利用海量无监督文本;其次,设计了共享语言解码模块,实现了语音和文本隐层表达空间的统一,大大缓解了低资源语种的数据稀疏问题。
图3:USRS-ASR框架示意图
为全球提供多语种智能语音解决方案
就在不久前,工信部正式批复同意成立国家智能语音创新中心、国家高端智能化家用电器创新中心,科技创新正不断引领产业升级。
值得注意的是,在这两家国家级创新中心依托公司的股东名单中,“科大讯飞”均赫然在列。
持续致力于打造源头技术创新策源地,科大讯飞正不断追寻“顶天立地”的产业梦想。
多语种语音语言技术是万物互联时代实现人机交互的关键技术,也是实现“一带一路”语言大互通的基础技术。
从2014年开始,科大讯飞就一直在该方向的源头技术创新及产业化应用上持续投入,并不断挑战实际应用中的技术难题。
经过多年的技术积累,除了中英以外,科大讯飞还具备了 69种语言的语音识别能力(其中35个语种准确率已超过90%),并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点,为各地开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务,所有服务均在科大讯飞开放平台开放。
多语种技术有力支撑了科大讯飞智能硬件产品创新。在翻译终端方面,2016年11月发布的科大讯飞智能翻译硬件,开创了AI翻译机新品类;在会议同传方面,2016年11月推出的讯飞听见多语种字幕同传系统,支持日韩法西等多国语言的同声传译;在录音笔方面,科大讯飞于2019年5月发布智能录音笔,次年升级支持8种语言转写能力,2021年日本版智能录音笔VOITER系列在日本一经上线,就取得单月销售破千台的亮眼成绩。
除自身产品以外,科大讯飞也积极为“中国制造”出海产品提供自主可控解决方案。
在手机、家电方面,为国内众多手机厂商提供包括中英在内的多语种语音识别、语音合成能力解决方案,并联合海尔研发多语种识别系统,助力其拓展东南亚市场;在车载交互方面,与上汽、长安、奇瑞等国内主要出海汽车提供商,以及俄罗斯汽车工程研究院(NAMI)等海外车厂开展多语种项目合作,覆盖英语、俄语、日语、泰语、西班牙语、意大利语等数十个语种。
此外,科大讯飞的多语种相关技术能力也已应用于北京2022年冬奥会官方APP(冬奥通),助力冬奥信息沟通无障碍。
作为人工智能国家队,科大讯飞将继续坚持源头核心技术创新,联合国内众多研究机构与企业,构建多语言技术的系统性创新研发生态,共同推动我国多语言技术进步与应用落地。
您可能也感兴趣:
- 大模型价格战愈演愈烈 科大讯飞官宣讯飞星火Lite API永久免费开放
- 科大讯飞:与华为、韩端机器人在人工智能领域始终保持良好的合作与交流
- 科大讯飞董事长回应买蔚来原因:性能出色 加速快
- 科大讯飞2023年报:营收增4.4%、扣非净利润降71.74%、减员690人
- 科大讯飞推出AI耳背式助听器 单耳2699元双耳3999 元
观点
抖音搅局在线音乐
普通人如何在电脑上尝鲜AI技术
美团出海,远水能否解近渴
视频 更多
比亚迪秦L DM-i和海豹06 DM-i上市:9.98万元起
比亚迪第5代DM混动技术发布
蚂蚁集团CTO:Vision Pro不会是一个很成功的产品
小鹏子品牌MONA首车曝光:有望定名“想往03”
官方微博/微信
每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。
想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
今日热点
雷军,要讲超越“特斯拉”的新故事了
抖音搅局在线音乐
美团不停
为您推荐
普通人如何在电脑上尝鲜AI技术?三招教你玩转AI
无AI不智驾,智驾进入AI时代
苹果发布iPhone紧急更新通知 协助FaceTime反欺诈
国家大基金三期正式成立 注册资本3440亿元超前两期总和
马斯克AI初创公司xAI宣布B轮融资获得60亿美元资金 将用于未来技术研发等
刘强东、马云、李彦宏们都在整治互联网“大公司病”
随时调用!当翻译官!看GPT如何完美融入Mac电脑端
消息称苹果和OpenAI已达成协议 将生成式AI引入iOS 18
扎克伯格与马斯克又“杠上了”:争夺与聊天机器人公司Character.ai合作机会
更多
- 易点天下CTO王一舟:GenAI原生企业的机遇与挑战
- 亚马逊云科技宣布百川智能和零一万物基础模型登陆中国区域SageMaker JumpStart
- 2024AI营销白皮书:73%的出海企业尝试采用AI进行营销提效
- Canalys:一季度全球可穿戴腕带设备出货量4120万台 苹果、小米、华为分列前三
- “萝卜快跑”回应自动驾驶遭大量投诉:网络内容与事实严重不符
- 滴滴Q1总收入同比增长14.9%至491亿元 核心平台交易量37.5亿单
- 普通人如何在电脑上尝鲜AI技术?三招教你玩转AI
- 消息称视频号直播电商团队调整 并入微信开放平台
- TechWeb微晚报:OpenAI“宫斗剧”内幕曝光,智驾进入AI时代
- 小米将推万兆NAS?官方回应:没有规划
更多
- iPhone 16 Pro系列有望配备更大容量电池 消息称较上一代将增加300多mAh
- Salesforce第二财季业绩预期时隔18年再次低于华尔街预期 股价盘后大跌15.47%
- 苹果开发者大会前瞻:iOS 18有20多项新功能,Siri将更智能
- 消息称iPhone 16系列多款显示屏已开始生产 但Pro Max尚未获批
- OpenAI前董事透露开除奥尔特曼内幕:多重因素导致 开除前月就在考虑
- 英伟达股价周二大涨 或与马斯克xAI超级计算机计划有关
- 英伟达市值超过2.8万亿美元 与苹果差距已不足700亿美元
- 不只iPad mini 苹果iPad Air也有望在2026年转向OLED屏
- 英伟达CEO黄仁勋:特斯拉在自动驾驶汽车上遥遥领先
- 特斯拉Autopilot团队开始大招聘 官网已发布20多条招聘需求
智能家庭 更多
iPhone 16 Pro Max影像规格出炉
vivo X100 Ultra开售爆火
一加Ace3 Pro设计细节曝光
云计算 更多
- 西谷云田凤宾:算力体系在标准路线、体系架构方面仍然处于起步阶段
- 微软AI暴露主观意识:会示爱、会PUA甚至威胁人类
- 青云QingCloud EHPC 打造即买即用的全流程SaaS化超算服务
- 沙利文报告:中国AI平台开发应用市场综合竞争表现 亚马逊云科技居首
- 要数据还是要环境?数据中心能耗未来将突破全球电力近10%!
- 蚂蚁链发布BTN:可将区块链网络吞吐量提升186% 带宽成本降低80%
- 蚂蚁自研数据库OceanBase宣布开源 300万行核心代码向社区开放
- 法院正式判决,小米移出军事清单:正式撤销了对小米公司的全部限制
手机游戏 更多
终于来了:开放世界武侠游戏《燕云十六声》首测6月开启
基于《无畏契约》的MMOFPS:拳头游戏《代号T项目》开发中
3天卖1000万份!《塞尔达传说:王国之泪》创系列历史纪录
排行
- 柚子练琴的离奇跑路:倒闭前20天还在进行双
- 黄仁勋有望超越马斯克成全球首富 英伟达股
- iPhone紧急更新通知:协助FaceTime通话反欺
- 被苹果踢出“果链”:超30年历史晶圆厂面临
- 消息称微信视频号直播电商团队调整,并入微
- MEGA失利拖累理想?
- 宝马工厂“机器狗”SpOTTO 上岗 可“嗅探”
- 信美相互人寿发布“大模型保险垂直应用3.0
- 消息称保时捷三家中国经销商联合抗议,要求
- OpenAI成立监督委员会评估AI安全,并已开始
图赏 更多
-
长城旗下首款MPV魏牌高山DHT-PHEV上市
-
2024款岚图梦想家上市 33.99万元起起售
-
蔚来手机NIO Phone发布:旗舰配置 机身轻薄 6499元起
-
华为Mate60 Pro图赏:高性能与创新设计的完美结合
-
摩托罗拉moto g54图赏
视频 更多
比亚迪秦L DM-i和海豹06 DM-i上市:9.98万元起
比亚迪第5代DM混动技术发布
蚂蚁集团CTO:Vision Pro不会是一个很成功的产品
小鹏子品牌MONA首车曝光:有望定名“想往03”
专题 更多
- vivo X Fold3系列新品发布会
- 智能车评专题
- 2023鹤立奖年度评选
- 荣耀Magic6系列新品发布会
今日要闻
- iPhone 16 Pro显示屏即将量产 边框最窄苹果手机
- “萝卜快跑”回应自动驾驶遭大量投诉:已报案
- Salesforce业绩展望低于预期 股价盘后大跌逾15%
- 阿里完成发行50亿美元高级可转债 用于回购等目的
- OpenAI前董事透露开除奥尔特曼内幕 多重因素导致
- 字节回应“TikTok曾提议将控制权交给美政府”传闻
- 腾讯:基于混元大模型的元宝App已接入微信搜一搜
- 欧盟宣布成立人工智能办公室 防范人工智能风险
- 小米将推万兆NAS?官方回应:目前没有产品规划
- 消息称长城汽车将关闭欧洲总部裁员百人 暂停扩张