一种语音识别及实体识别后的影视实体纠错方法与流程

文档序号：19897218发布日期：2020-02-11 13:25阅读：1109来源：国知局

导航： X技术> 最新专利> 乐器;声学设备的制造及制作,分析技术

本发明涉及语音文本处理，具体涉及一种语音识别及实体识别后的影视实体纠错方法。

背景技术：

随着深度学习的普及，在计算机视觉、语音识别、自然语言处理等方面均取得重大突破。目前语音识别准确率已达到97％。相对于其它人机交互方式，语音交互更为符合人们的日常习惯，更为高效，因此，语音识别技术将广泛应用于智能家居、工业生产、通信、医疗、自动驾驶等各个领域。对于每个家庭必备的电视也少不了要智能化，通过电视就可以操作家里的一切设备，躺在沙发上动动嘴就可以观看心仪的影片。智能电视可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体，以满足用户多样化和个性化需求的电视产品。其目的是带给用户更便捷的体验，目前已经成为电视的潮流趋势。

在实际智能电视语音交互过程中，由于用户多为老年人和儿童，老年人普通话不标准、常用方言，儿童搜索视频时句式不完整，只记住动画片中人物角色及环境噪音等各种因素影响，语音识别错误率较高。而现有技术都集中在提升语音识别准确率上，却缺乏对识别结果的进一步处理。

由于环境噪声以及设备、口音等因素的干扰，语音识别转换为文本往往包含了大量的噪声数据，比如同音词、近似音词、错别字等错误文本数据，这样的文本错误往往会带来分词错误。目前大多数的语音识别后文本纠错都是基于词的识别结果结合概率的统计方法，这样的方法存在两个问题：一是语音识别的错误会导致分词错误，而在分词过程往往因为错误词导致提取了错误的词项；二是在特定领域用途中，由于缺乏大规模语料库，有限的语料样本很难准确反映真实的词项概率分布，通过计算概率的方法并不能达到理论预期。因此，在实际运用过程中，比如在对话机器人的应用中，通过统计方法去实现文本纠错的效果并不理想，对后续的语义分析和意图识别形成极大的阻力。

技术实现要素：

本发明所要解决的技术问题是：提出一种语音识别及实体识别后的影视实体纠错方法，解决由于用户在人机交互时由于普通话不标准、搜索句式不完整、噪音等影响因素造成语音识别的影视实体不完整、错误而影响用户体验的问题。

本发明解决上述技术问题采用的技术方案是：

一种语音识别及实体识别后的影视实体纠错方法，包括以下步骤：

a、对语音转化后的文本数据进行分析和预处理，获取样本数据集；

b、利用样本数据训练基于bilstm+crf的命名实体识别模型；

c、通过对近期用户高频请求的影视实体数据进行处理，构建实体修正数据集；

d、实际语音交互过程中，根据语音识别后的文本数据，利用训练的基于bilstm+crf的命名实体识别模型进行预测及实体验证，若实体验证通过，则返回输出，若实体验证失败，则进入步骤e；

e、对验证失败的实体进行纠错处理；

f、对纠错结果进行封装处理。

作为进一步优化，步骤a具体包括：

将从电视终端采集到的语音转换后的用户文本数据进行聚类分析，确定影视实体类别、wordid及tagid，对用户常用搜索句式做实体标签标注，利用word2vec训练300维字符向量，作为样本数据。

作为进一步优化，步骤b具体包括：

对样本数据按照一定比例划分为训练数据集、测试数据集和验证数据集，训练基于bilstm+crf的命名实体识别模型。

作为进一步优化，步骤c具体包括：

定期从知识图谱中获取近期用户请求次数超过一定阈值的影视实体，然后对影视实体数据进行2-gram切分，将切分获得的包含相同字符串的实体均存储在以该字符串为key的redishash结构中，构建实体修正数据集。

作为进一步优化，步骤d中，在利用训练的基于bilstm+crf的命名实体识别模型进行预测之前，首先对语音识别后的文本数据去除特殊符号，对“集/季”的实体进行去除，将经过此处理后的数据作为模型输入；在经过模型预测后，对预测结果中含有影视名称的实体去实体知识图谱查询验证，若能查到实体，则返回输出，若不能查到该实体，则进入步骤e。

作为进一步优化，步骤e具体包括：首先对验证失败的实体进行2-gram切分，然后循环将分词结果转换为拼音在修正数据集中查找包含该分词的所有实体，再根据纠错算法从中获得正确实体。

作为进一步优化，所述纠错算法包括：若修正数据集中的某个实体与验证失败的实体的拼音相似度或者首字母相似度大于预设阈值，则将修正数据集中的该实体作为纠错结果；若拼音相似度和首字母相似度都没达到预设阈值，则基于请求次数、拼音字符相似度、中文字符相似度、首字母相似度进行加权计算分数，取分数超过阈值的前n个实体进行观察，若实体中存在动画片名的实体，则优先输出动画片名的实体。

作为进一步优化，步骤f中，对经过纠错处理的实体和模型预测的其它实体进行封装。

本发明的有益效果是：通过对近期用户高频请求的影视实体数据进行处理，构建实体修正数据集，并且定时更新该修正数据集，在通过模型预测后，若实体验证失败，则采用实体修正数据集对失败的实体进行修正；在修正时考虑了字符、拼音、首字母相似度及请求次数加权得分，能对实体不同错误类型进行修正。

附图说明

图1为本发明的语音识别及实体识别后的影视实体纠错方法流程图；

图2为实施例中对验证失败的实体进行纠错处理的流程图。

具体实施方式

本发明旨在提出一种语音识别及实体识别后的影视实体纠错方法，解决由于用户在人机交互时由于普通话不标准、搜索句式不完整、噪音等影响因素造成语音识别的影视实体不完整、错误而影响用户体验的问题。本发明从用户真实数据出发，挖掘用户需求，考虑到面对的用户多为老人及儿童，存在语音人机交互时普通话不标准、句式不完整、噪音影响等特点，加强对未登陆词语实体识别，实体识别后对用户可能意图的预测及纠错处理，旨在提高用户的体验。

如图1所示本发明中的语音识别及实体识别后的影视实体纠错方法，包括以下步骤：

(1)、对语音转化后的文本数据进行分析和预处理，获取样本数据集；

(2)、利用样本数据训练基于bilstm+crf的命名实体识别模型；

(3)、通过对近期用户高频请求的影视实体数据进行处理，构建实体修正数据集；

(4)、实际语音交互过程中，根据语音识别后的文本数据，利用训练的基于bilstm+crf的命名实体识别模型进行预测及实体验证，若实体验证通过，则返回输出，若实体验证失败，则进入步骤(5)；

(5)、对验证失败的实体进行纠错处理；

(6)、对纠错结果进行封装处理。

下面结合附图及实施例对本发明的方案作进一步的描述。

实施例：

一、语音识别后文本数据分析、预处理：

将从电视终端采集到的用户数据通过k-means聚类、频次、用户行为数据等分析，确定影视搜索的基本需求，如常用搜索句式、按什么条件搜索视频等，结合业务需求，确定实体类别及命名；然后人工按bio标准标注训练数据，由于没现成可用的标注数据，利用用户真实数据及word2vec语言模型训练300维度的字符向量，作为双向bilstm的底层输入。

二、训练基于bilstm+crf的实体识别模型：

将所有标注的训练数据按0.7、0.2、0.1的比例划分为训练数据集、测试数据集和验证数据集。

以句子为单位，将一个含有n个字的句子(字的序列)记作：

x＝(x1,x2,...,xn)

其中，xi表示句子的第i个字在字典中的id，进而可以得到每个字的的word2id向量，维数是字典大小。

这里的字典是从所有训练数据中统计每个词的频次，并按从大到小排序后，得到每个字对应的唯一的id，未登录词标记位‘<unk>’。

本发明使用了线性crf给实体标签的得分:softmax方法是做局部选择，没有利用周围的标签来帮助决策。例如：“杨幂”，当我们给了幂“i-actor”这个标签后，这应该帮助我们决定“杨”对应i-actor的起始位置。线性crf定义了全局得分。

三、通过对近期用户高频请求的影视实体数据进行处理，构建实体修正数据集：

由于影视数据更新快，热门影视片随着时间推移也不再热门，如果将所有影视数据不加选择作为待修正数据集，纠错处理耗时长，用户体验差。本发明考虑了大多数用户的需求只针对近期热门数据进行修正。比如：从知识图谱中取请求次数大于500的影视实体，将数据2-gram切分，如小玲玩具切分成：小玲/玲玩/玩具，将含玩具的实体如小玲玩具、玩具屋、熊出没玩具都存于以wan-ju为key的redishash结构中，实体存储形式wan-ju：小玲玩具#请求频次#是否为动画片，玩具屋#请求频次#是否为动画片，......。之所以这样存储数据是考虑到做拼音、字符相似度时减少计算的复杂，一般的纠错方法基本都是基于分词后模糊匹配的，但对这种少字、多字、错别词的实体，分词识别率很低，这里使用的是2-ngram切分词。

四、利用训练的基于bilstm+crf的命名实体识别模型进行预测及实体验证：

将文本数据输入模型进行预测，此处需要说明，在文本输入模型前做了处理，将集、季等实体以规则识别后并去除，如：原文本数据为“我想看芈月传第二集”。经过处理，输入的是“我想看芈月传”。这样处理提高了集季实体的识别率；

在经过模型预测后，要将预测的实体在知识图谱中进行验证，看是否存在这样的实体，找到实体则直接返回。若查不到实体，则需要进行实体修正，如针对语音识别后的文本数据“我想看半月传”，模型预测实体为“半月传”，经过对该实体进行验证，发现其不在知识图谱中，则表明此实体可能是用户输出有误。这时就执行步骤五，进一步对预测实体修正。

五、验证失败实体纠错处理：

纠错处理的流程如图2所示，首先将验证失败的实体，如“小玲玩具”进行2-gram切分词，分为小玲/玩具；然后循环将分词结果转换为拼音去redis查包含该分词的正确实体，查到后按纠错算法得出正确实体，纠错算法大致思想：拼音相似度大于80或者首字母相似度大于88返回与之匹配的影视实体，如果拼音相似度和首字母相似度都没达到要求的阈值，再求基于请求次数、拼音字符相似度、中文字符相似度、首字母相似度加权分数，取超过阈值的前三个实体进行观察。这个评分机制考虑了不同实体的错误类型。对请求次数做min-max标准化标处理，使其值在[0,100]之间。设x1，x2,...,xn为要进行相似度计算的实体对应的请求次数，标准化后：

对于只有一个实体时，请求次数标准设置为90，对拼音相似度高，请求次数低的调整请求次数所占权重。

对于得分超过阈值(比如65分)的实体有多个时，取前三个观察，如果其中一个动画片且得分与排名第一的相差不超5分，取动画名实体作为修正结果。这样做主要是通过分析用户数据，大多错误集中在动画片实体上。

此纠错匹配算法可以解决的问题如下：

六、实体结果封装输出：

将纠错得到的影视实体与模型预测得到的其他实体封装后输出。

完整全部详细技术资料下载

当前第1页 1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙云云;刘楚雄;唐军
技术所有人：四川长虹电器股份有限公司
我是此专利的发明人

上一篇：屋面女儿墙阴角结构及其施工方法与流程
上一篇：一种智慧农业用温室除雪装置及使用方法与流程