一种语音识别及实体识别后的影视实体纠错方法与流程

文档序号:19897218发布日期:2020-02-11 13:25阅读:1109来源:国知局
导航: X技术> 最新专利> 乐器;声学设备的制造及制作,分析技术
一种语音识别及实体识别后的影视实体纠错方法与流程

本发明涉及语音文本处理,具体涉及一种语音识别及实体识别后的影视实体纠错方法。



背景技术:

随着深度学习的普及,在计算机视觉、语音识别、自然语言处理等方面均取得重大突破。目前语音识别准确率已达到97%。相对于其它人机交互方式,语音交互更为符合人们的日常习惯,更为高效,因此,语音识别技术将广泛应用于智能家居、工业生产、通信、医疗、自动驾驶等各个领域。对于每个家庭必备的电视也少不了要智能化,通过电视就可以操作家里的一切设备,躺在沙发上动动嘴就可以观看心仪的影片。智能电视可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体,以满足用户多样化和个性化需求的电视产品。其目的是带给用户更便捷的体验,目前已经成为电视的潮流趋势。

在实际智能电视语音交互过程中,由于用户多为老年人和儿童,老年人普通话不标准、常用方言,儿童搜索视频时句式不完整,只记住动画片中人物角色及环境噪音等各种因素影响,语音识别错误率较高。而现有技术都集中在提升语音识别准确率上,却缺乏对识别结果的进一步处理。

由于环境噪声以及设备、口音等因素的干扰,语音识别转换为文本往往包含了大量的噪声数据,比如同音词、近似音词、错别字等错误文本数据,这样的文本错误往往会带来分词错误。目前大多数的语音识别后文本纠错都是基于词的识别结果结合概率的统计方法,这样的方法存在两个问题:一是语音识别的错误会导致分词错误,而在分词过程往往因为错误词导致提取了错误的词项;二是在特定领域用途中,由于缺乏大规模语料库,有限的语料样本很难准确反映真实的词项概率分布,通过计算概率的方法并不能达到理论预期。因此,在实际运用过程中,比如在对话机器人的应用中,通过统计方法去实现文本纠错的效果并不理想,对后续的语义分析和意图识别形成极大的阻力。



技术实现要素:

本发明所要解决的技术问题是:提出一种语音识别及实体识别后的影视实体纠错方法,解决由于用户在人机交互时由于普通话不标准、搜索句式不完整、噪音等影响因素造成语音识别的影视实体不完整、错误而影响用户体验的问题。

本发明解决上述技术问题采用的技术方案是:

一种语音识别及实体识别后的影视实体纠错方法,包括以下步骤:

a、对语音转化后的文本数据进行分析和预处理,获取样本数据集;

b、利用样本数据训练基于bilstm+crf的命名实体识别模型;

c、通过对近期用户高频请求的影视实体数据进行处理,构建实体修正数据集;

d、实际语音交互过程中,根据语音识别后的文本数据,利用训练的基于bilstm+crf的命名实体识别模型进行预测及实体验证,若实体验证通过,则返回输出,若实体验证失败,则进入步骤e;

e、对验证失败的实体进行纠错处理;

f、对纠错结果进行封装处理。

作为进一步优化,步骤a具体包括:

将从电视终端采集到的语音转换后的用户文本数据进行聚类分析,确定影视实体类别、wordid及tagid,对用户常用搜索句式做实体标签标注,利用word2vec训练300维字符向量,作为样本数据。

作为进一步优化,步骤b具体包括:

对样本数据按照一定比例划分为训练数据集、测试数据集和验证数据集,训练基于bilstm+crf的命名实体识别模型。

作为进一步优化,步骤c具体包括:

定期从知识图谱中获取近期用户请求次数超过一定阈值的影视实体,然后对影视实体数据进行2-gram切分,将切分获得的包含相同字符串的实体均存储在以该字符串为key的redishash结构中,构建实体修正数据集。

作为进一步优化,步骤d中,在利用训练的基于bilstm+crf的命名实体识别模型进行预测之前,首先对语音识别后的文本数据去除特殊符号,对“集/季”的实体进行去除,将经过此处理后的数据作为模型输入;在经过模型预测后,对预测结果中含有影视名称的实体去实体知识图谱查询验证,若能查到实体,则返回输出,若不能查到该实体,则进入步骤e。

作为进一步优化,步骤e具体包括:首先对验证失败的实体进行2-gram切分,然后循环将分词结果转换为拼音在修正数据集中查找包含该分词的所有实体,再根据纠错算法从中获得正确实体。

作为进一步优化,所述纠错算法包括:若修正数据集中的某个实体与验证失败的实体的拼音相似度或者首字母相似度大于预设阈值,则将修正数据集中的该实体作为纠错结果;若拼音相似度和首字母相似度都没达到预设阈值,则基于请求次数、拼音字符相似度、中文字符相似度、首字母相似度进行加权计算分数,取分数超过阈值的前n个实体进行观察,若实体中存在动画片名的实体,则优先输出动画片名的实体。

作为进一步优化,步骤f中,对经过纠错处理的实体和模型预测的其它实体进行封装。

本发明的有益效果是:通过对近期用户高频请求的影视实体数据进行处理,构建实体修正数据集,并且定时更新该修正数据集,在通过模型预测后,若实体验证失败,则采用实体修正数据集对失败的实体进行修正;在修正时考虑了字符、拼音、首字母相似度及请求次数加权得分,能对实体不同错误类型进行修正。

附图说明

图1为本发明的语音识别及实体识别后的影视实体纠错方法流程图;

图2为实施例中对验证失败的实体进行纠错处理的流程图。

具体实施方式

本发明旨在提出一种语音识别及实体识别后的影视实体纠错方法,解决由于用户在人机交互时由于普通话不标准、搜索句式不完整、噪音等影响因素造成语音识别的影视实体不完整、错误而影响用户体验的问题。本发明从用户真实数据出发,挖掘用户需求,考虑到面对的用户多为老人及儿童,存在语音人机交互时普通话不标准、句式不完整、噪音影响等特点,加强对未登陆词语实体识别,实体识别后对用户可能意图的预测及纠错处理,旨在提高用户的体验。

如图1所示本发明中的语音识别及实体识别后的影视实体纠错方法,包括以下步骤:

(1)、对语音转化后的文本数据进行分析和预处理,获取样本数据集;

(2)、利用样本数据训练基于bilstm+crf的命名实体识别模型;

(3)、通过对近期用户高频请求的影视实体数据进行处理,构建实体修正数据集;

(4)、实际语音交互过程中,根据语音识别后的文本数据,利用训练的基于bilstm+crf的命名实体识别模型进行预测及实体验证,若实体验证通过,则返回输出,若实体验证失败,则进入步骤(5);

(5)、对验证失败的实体进行纠错处理;

(6)、对纠错结果进行封装处理。

下面结合附图及实施例对本发明的方案作进一步的描述。

实施例:

一、语音识别后文本数据分析、预处理:

将从电视终端采集到的用户数据通过k-means聚类、频次、用户行为数据等分析,确定影视搜索的基本需求,如常用搜索句式、按什么条件搜索视频等,结合业务需求,确定实体类别及命名;然后人工按bio标准标注训练数据,由于没现成可用的标注数据,利用用户真实数据及word2vec语言模型训练300维度的字符向量,作为双向bilstm的底层输入。

二、训练基于bilstm+crf的实体识别模型:

将所有标注的训练数据按0.7、0.2、0.1的比例划分为训练数据集、测试数据集和验证数据集。

以句子为单位,将一个含有n个字的句子(字的序列)记作:

x=(x1,x2,...,xn)

其中,xi表示句子的第i个字在字典中的id,进而可以得到每个字的的word2id向量,维数是字典大小。

这里的字典是从所有训练数据中统计每个词的频次,并按从大到小排序后,得到每个字对应的唯一的id,未登录词标记位‘<unk>’。

本发明使用了线性crf给实体标签的得分:softmax方法是做局部选择,没有利用周围的标签来帮助决策。例如:“杨幂”,当我们给了幂“i-actor”这个标签后,这应该帮助我们决定“杨”对应i-actor的起始位置。线性crf定义了全局得分。

三、通过对近期用户高频请求的影视实体数据进行处理,构建实体修正数据集:

由于影视数据更新快,热门影视片随着时间推移也不再热门,如果将所有影视数据不加选择作为待修正数据集,纠错处理耗时长,用户体验差。本发明考虑了大多数用户的需求只针对近期热门数据进行修正。比如:从知识图谱中取请求次数大于500的影视实体,将数据2-gram切分,如小玲玩具切分成:小玲/玲玩/玩具,将含玩具的实体如小玲玩具、玩具屋、熊出没玩具都存于以wan-ju为key的redishash结构中,实体存储形式wan-ju:小玲玩具#请求频次#是否为动画片,玩具屋#请求频次#是否为动画片,......。之所以这样存储数据是考虑到做拼音、字符相似度时减少计算的复杂,一般的纠错方法基本都是基于分词后模糊匹配的,但对这种少字、多字、错别词的实体,分词识别率很低,这里使用的是2-ngram切分词。

四、利用训练的基于bilstm+crf的命名实体识别模型进行预测及实体验证:

将文本数据输入模型进行预测,此处需要说明,在文本输入模型前做了处理,将集、季等实体以规则识别后并去除,如:原文本数据为“我想看芈月传第二集”。经过处理,输入的是“我想看芈月传”。这样处理提高了集季实体的识别率;

在经过模型预测后,要将预测的实体在知识图谱中进行验证,看是否存在这样的实体,找到实体则直接返回。若查不到实体,则需要进行实体修正,如针对语音识别后的文本数据“我想看半月传”,模型预测实体为“半月传”,经过对该实体进行验证,发现其不在知识图谱中,则表明此实体可能是用户输出有误。这时就执行步骤五,进一步对预测实体修正。

五、验证失败实体纠错处理:

纠错处理的流程如图2所示,首先将验证失败的实体,如“小玲玩具”进行2-gram切分词,分为小玲/玩具;然后循环将分词结果转换为拼音去redis查包含该分词的正确实体,查到后按纠错算法得出正确实体,纠错算法大致思想:拼音相似度大于80或者首字母相似度大于88返回与之匹配的影视实体,如果拼音相似度和首字母相似度都没达到要求的阈值,再求基于请求次数、拼音字符相似度、中文字符相似度、首字母相似度加权分数,取超过阈值的前三个实体进行观察。这个评分机制考虑了不同实体的错误类型。对请求次数做min-max标准化标处理,使其值在[0,100]之间。设x1,x2,...,xn为要进行相似度计算的实体对应的请求次数,标准化后:

对于只有一个实体时,请求次数标准设置为90,对拼音相似度高,请求次数低的调整请求次数所占权重。

对于得分超过阈值(比如65分)的实体有多个时,取前三个观察,如果其中一个动画片且得分与排名第一的相差不超5分,取动画名实体作为修正结果。这样做主要是通过分析用户数据,大多错误集中在动画片实体上。

此纠错匹配算法可以解决的问题如下:

六、实体结果封装输出:

将纠错得到的影视实体与模型预测得到的其他实体封装后输出。

完整全部详细技术资料下载
当前第1页 1  2  3 
相关技术
  • 一种韵律生成模型的训练方法及...
  • 基于样本量的声纹聚类方法、装...
  • 一种基于注意力机制的多尺度音...
  • 基于Fisher混合特征和神...
  • 一种用于语音情感计算的无监督...
  • 一种基于人工智能的语音韵律处...
  • 一种语音库管理方法、语音识别...
  • 基于语音交互的适用于电子设备...
  • 基于深度卷积循环神经网络的语...
  • 一种韵律停顿预测方法、装置以...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
声纹识别和语音识别相关技术
  • 语音识别设备和方法
  • 语音识别装置、识别方法以及记录介质的制作方法
  • 语音识别装置和方法
  • 语音识别装置和语音识别方法
  • 语音识别方法和通信设备的制作方法
  • 用于中等或大词汇量语音识别的上下文相关声模型的制作方法
  • 语音识别设备和方法
  • 语音识别装置和语音识别方法
  • 语音识别方法和语音识别装置的制作方法
  • 基于声纹识别和语音识别的防录音假冒的身份确认方法
语音识别的应用相关技术
  • 语音文本串的解析方法和装置的制造方法
  • 分为两部分的语音识别的制作方法
  • 一种在输入界面中进行音乐搜索的方法和装置的制造方法
  • 一种用于快速信息识别领域的磁性记录纸的制作方法
  • 一种语音搜索方法及装置的制造方法
  • 电话语音识别中的自适应方法
  • 一种基于语音识别通过打开应用方式解锁的终端及方法
  • 基于电视场景状态及语音助手的语音辅助方法及系统的制作方法
  • 基于电视场景元素及语音助手的语音交互辅助方法及系统的制作方法
  • 基于电视场景及语音助手的语音交互辅助方法及系统的制作方法

聚圣源李宗吾借问谁家子天生妙手无锡起重机械厂家排名宝宝起名 都姓马五行缺水贸易公司起名大全集五月播播猴年张姓女孩起名按琴棋书画起四个名字婴儿起名免费网站大全饭店起名免费网郑字起什么名字大全道客巴巴下载器网银安全控件下载日本高清在线视频精品视频猪年男孩子起名宜用字宁波贸易公司起名隋末之乱臣贼子用杨起名女三个字的不会起名字傻瓜王爷睿智王妃窃读记读后感武汉韵达快递画蛇添足的意思起征点名词解释二哈和他的白猫师尊漫画大陆三级经典三级在线起名 男诗经 女生楚辞殡仪公司起名大全七星鲁王宫淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化