一种基于深度学习的中文命名实体识别方法与流程

文档序号：20779495发布日期：2020-05-19 21:06阅读：467来源：国知局

导航： X技术> 最新专利> 计算;推算;计数设备的制造及其应用技术

本发明属于自然语言处理、知识图谱及序列标记技术领域，涉及深度学习技术和序列标记技术，尤其是一种基于深度学习的中文命名实体识别方法。

背景技术：

命名实体识别属于序列标注领域的一种，是自然语言处理的基础任务，主要是指找出文本中的具有特定意义的实体，包括人名、地名、机构名以及一些特定的专有名词。识别的任务主要包括两部分：实体边界识别和确定其实体类别(人名、地名和组织机构名等)，其中命名实体作为文本的基本元素，也是作为理解文章内容的基本单元。更多的，命名实体识别更是作为知识图谱等文本数据处理的上层基础任务，其中，命名实体识别的准确性直接影响到知识图谱构建最终的效果。知识图谱是建立在实体与实体之间的关系上的，如若实体抽取出现错误，必将导致后续实体关系的确定无法进行；自动文摘和问答系统也是同理，当要对句子进行语义分析时，必须找出文中的相关命名实体。因而，命名实体识别对于文本数据处理特别是自然语言处理极其关键和重要。

目前，普遍适用的命名实体识别方法包括目前较为流行的命名实体识别模型有crf模型，lstm模型以及lstm与crf相结合的模型。相比于独立的单一模型，lstm结合crf的混合模型结合了两者的优势，既可以记忆长距离的序列之间的依赖关系，又利用了crf标注的优势，所以在命名实体识别领域应用较广，本方法也是在其基础上进行优化改进的。zhang等人在2019年研究了一种新的动态元嵌入方法，并将其应用到中文ner任务中。该方法创建动态的、特定于数据的和特定于任务的元嵌入，因为不同句子序列中的相同字符的元嵌入是不同的。在msra和literaturener数据集上的实验验证了该模型的有效性，并在literaturener上取得了最新的结果。

虽然近年来的研究比较提出了比较多的方法，但是这些普遍没有在多数据集上产生好的结果，同时也没有适用性强、准确率高、能够应用于多领域的通用命名实体识别模型。

技术实现要素：

本发明的目的在于克服现有技术的不足，提供一种基于深度学习的中文命名实体识别方法，能够运行多数据集，同时适用性强、准确率高、且能够应用于多领域文本的命名实体识别模型。

本发明解决其技术问题是通过以下技术方案实现的：

一种基于深度学习的中文命名实体识别方法，其特征在于：所述识别方法的步骤为：

1)将数据文本进行字词位置信息混合向量嵌入；

2)将步骤所得到的向量输入到bi-lstm层进行向量编码，模拟时间序列捕获向量之间的长期关系；

3)将bi-lstm层输出的向量输入到自注意力层，明确学习句子中任意两个字符之间的依赖关系，并捕捉句子的内部结构信息；

4)将输出的向量序列输入到crf层，做出独立的标记决策，并进行标签解码。

而且，所述步骤1)的具体操作为：

a、根据训练数据集建立字典，可以得到每个字的one-hot向量，长度为字典长度v，然后通过一个look-up层，利用预训练的单字位置向量矩阵，将one-ho向量映射为低维稠密的向量；

b、将词向量的三部分字符向量、分割为词的“字符”向量和字位置向量进行进行向量拼接，向量作为网络模型的输入，对于一个中文令牌序列

x＝(x1，x2，x3，…xn，)

将检查在单词查找表和字符查找表中是否存在令牌x，当x存在于所有两个表中，即令牌由一个字符组成，将取两种嵌入项的向量组合作为令牌的分布式表示；否则，将只使用一个查找表中的嵌入作为嵌入层的输出，字位置向量初始化为该字所在词语的词向量。

而且，所述步骤2)的具体操作为：将一个输入序列中各个字的字词混合向量作为网络的各个时间步输入到bi-lstm层，提取全局特征，通过双向lstm网络，得到正向lstm的隐含输出序列(h1，h2...hn)及反向lstm的隐含输出序列将两组隐含序列按位置拼接获得完整的隐含序列将此隐含序列作为下一层的输入。

而且，所述步骤3)的具体操作为：对于每一个时间步的输入，h＝h1，h3，...hn表示b-ilstm隐藏层的输出，根据多头注意力机制的原理，将输入向量经过一次线性变换后，并按比例缩放的dotproduct，注意力公式为：

其中：为查询矩阵；

为键矩阵；

为值矩阵；

d为bi-lstm的隐藏单位的维数，数值上等于2dh；

设定q＝k＝v＝h，多头注意力首先通过使用不同的线性投影，将查询、键和值h进行线性投影，然后h投影并行执行缩放的点积注意，最后，将这些注意结果连接起来，并再次投影得到新的表示。

而且，所述步骤4)的具体操作为：将结果接入crf层，crf层中包含一个转移矩阵，代表着各个标签之间的转移得分，crf层中对每个字对应的标签的得分由两部分构成：lstm模型输出的一元发射得分和crf中的二元转移得分之和，通过crf层中的转移矩阵，使得预测的标签之间添加合法的约束，增加标签语法的合理性，最后对标签的预测使用维特比解码推断出得分最高的标签序列。

本发明的优点和有益效果为：

本发明一种基于深度学习的中文命名实体识别方法，能够运行多数据集，同时适用性强、准确率高、且能够应用于多领域文本的命名实体识别模型中。

附图说明

图1为本发明的流程图；

图2为本发明在msra数据集上迭代次数与模型f1值变化曲线图；

图3为本发明在literaturener数据集上迭代次数与模型f1值变化曲线图；

图4为本发明在msra数据集上迭代次数与模型accuracy值变化曲线图；

图5为本发明在literaturener数据集上迭代次数与模型accuracy值变化曲线图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

如图1所示，一种基于深度学习的中文命名实体识别方法，其特征在于：所述识别方法的步骤为：

1)将数据文本进行字词位置信息混合向量嵌入；

b、将词向量的三部分字符向量、分割为词的“字符”向量和字位置向量进行进行向量拼接，向量作为网络模型的输入，对于一个中文令牌序列

x＝(x1，x2，x3，…xn，)

将检查在单词查找表和字符查找表中是否存在令牌x，当x存在于所有两个表中，即令牌由一个字符组成，将取两种嵌入项的向量组合作为令牌的分布式表示；否则，将只使用一个查找表中的嵌入作为嵌入层的输出，字位置向量初始化为该字所在词语的词向量；

2)将步骤所得到的向量输入到bi-lstm层进行向量编码，模拟时间序列捕获向量之间的长期关系；

将一个输入序列中各个字的字词混合向量作为网络的各个时间步输入到bi-lstm层，提取全局特征，通过双向lstm网络，得到正向lstm的隐含输出序列(h1，h2...hn)及反向lstm的隐含输出序列将两组隐含序列按位置拼接获得完整的隐含序列将此隐含序列作为下一层的输入；

3)将bi-lstm层输出的向量输入到自注意力层，明确学习句子中任意两个字符之间的依赖关系，并捕捉句子的内部结构信息；

对于每一个时间步的输入，h＝h1，h3，...hn表示b-ilstm隐藏层的输出，根据多头注意力机制的原理，将输入向量经过一次线性变换后，并按比例缩放的dotproduct，注意力公式为：

其中：为查询矩阵；

为键矩阵；

为值矩阵；

d为bi-lstm的隐藏单位的维数，数值上等于2dh；

设定q＝k＝v＝h，多头注意力首先通过使用不同的线性投影，将查询、键和值h进行线性投影，然后h投影并行执行缩放的点积注意，最后，将这些注意结果连接起来，并再次投影得到新的表示；

4)将输出的向量序列输入到crf层，做出独立的标记决策，并进行标签解码；将结果接入crf层，crf层中包含一个转移矩阵，代表着各个标签之间的转移得分，crf层中对每个字对应的标签的得分由两部分构成：lstm模型输出的一元发射得分和crf中的二元转移得分之和，通过crf层中的转移矩阵，使得预测的标签之间添加合法的约束，增加标签语法的合理性，最后对标签的预测使用维特比解码推断出得分最高的标签序列。

5)模型训练：

a、网络读取训练样本进行训练，从1开始进行迭代，当最大迭代次数大于k，则停止训练；对于每次输入的训练数据集，根据损失函数算出当前输出的损失差值，损失差值用于衡量模型的训练程度，如果损失大于预定最小损失值，则表明模型还需要继续训练调整，那么需要利用反向传播算法对每一层的网络参数依次进行更新，如果损失小于了预定的最小损失值，表明模型达到训练标准，则训练结束，程序退出。

b、训练数据集当前批次遍历完成之后，使用验证集对模型训练程度进行验证，如果当前验证结果优于历史验证的最好结果，表明当前训练有效，模型的性能处于上升阶段，可以尝试继续训练，并且对当前数据进行记录，用当前验证结果替换历史最好结果，并继续下一次训练。如果在连续的m次训练中验证结果都没有提高，可能说明我们学习率取值跨度太大，有可能刚好跨过了最小损失的极值部分，那么我们可以考虑将学习率适当降低，并尝试继续训练，反复迭代，直到学习率低于系统的预设值，则训练结束，退出。

c、当模型训练结束之后，我们将对模型的训练情况进行测试，模型的测试过程有如下：

(1)将通过训练得到的网络参数加载进模型中，并输入测试数据集。

(2)网络接收测试数据集，通过前向传播算法，获得最终的测试输出。

(3)将网络模型的输出序列与正确的标注序列进行对比计算。

(4)最后统计准确率，f1值以及召回率。

本实施例的实验分别在微软的msra新闻数据集和公开的literaturener数据集上进行。

msra来自sighan2006，是中文命名实体识别的共享任务。该数据集包含3种实体类型：人员、组织和位置。统计表明，该数据集包含48998个用于培训的句子和4432个用于测试的句子，由于msra数据集缺少验证集，因此本实施例将训练集的十分之一作为验证集。

literaturener数据集是由数百篇中国文学文章构建而成，其中不包括太短、太杂乱的文章。有9种实体类型：人员、组织、位置、抽象、时间、事物和度量。数据集分割的具体内容是：训练语句26320个，验证语句2045个，测试语句3016个。

本实施例为证明其数据优越性，选取多个期刊的的实验方法作为基线结果进行对比，并在表1和表2中给出了模型的最终性能与对照模型的性能对比。

本实施例采用与以往工作同样的评价指标，分别是precision(精度p)、recall(查全率r)及f1-score(f1)。精度反映了正确预测的令牌数与预测的令牌数的比例；查全率反映了正确预测的令牌与所使用数据中的所有令牌的比率；f1是精度和查全率的调和平均值。下式给出了三个指标的计算公式：

其中：tp为被模型判定为正例且实际也是正例的令牌数；

fp为被模型判定为正例但实际是负例的令牌数；

tn为被模型判定为负例但实际也正例的令牌数；

fn为被模型判定为负例且实际也是负例的令牌数。

最后通过实验显示，新模型在不使用任何手工制作的特征模板，在公开数据集msra上取得较好的结果，f1值达到91.37％，并在literaturener数据集上f1值达到73.23％，好于之前他人的结果，与zhang的相比提高0.5％和0.2％，达到此任务的目前最佳性能，同时具备能够运行多数据集，适用性强、准确率高、且能够应用于多领域文本的特点。

表1在数据集msra上的结果比较表

表2在数据集literaturener上的结果比较表

在模型训练过程中，研究人员通过迭代次数和模型的各个标签效果变化曲线图和accuracy图可以判断模型的训练状态。其中validationaccuracy指的是验证集中正确预测的样本数占总预测样本数的比值，它不考虑预测的样本是正例还是负例，accuracy计算公式如下：

因而，本实施例在实验设置的100轮迭代中，按比例抽取其中的33轮结果进行展示，并分别绘制两个数据集上的模型的f1值曲线图，如图2-5所示。

从图中可以看出，在msra数据集从迭代开始模型的f1值收敛的速度是比较快的，经过大约15轮迭代后趋于稳定，并保持在一个小范围区间浮动，而在literaturener数据集上则在训练初期便已趋于稳定状态，这和两个数据集的构成和数据量大小有关，因为msra数据集数据量比较大，所以需要训练更长时间才能达到稳定状态，不过两个数据集看的模型f1值曲线变化图很好的说明模型能够快速收敛且不会陷入过拟合状态，很好的适合于中文命名实体识别任务。

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗韬;冯爽;徐天一;赵满坤;于健;喻梅;于瑞国;李雪威
技术所有人：天津大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。