[发明专利]一种半监督学习结合自定义词典的命名实体识别方法有效
| 申请号: | 201910172675.7 | 申请日: | 2019-03-07 |
| 公开(公告)号: | CN109858041B | 公开(公告)日: | 2023-02-17 |
| 发明(设计)人: | 苏海波;高体伟;孙伟;王然;于帮付;黄伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F16/35;G06N3/0442;G06N3/045;G06N3/0895 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
| 地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 监督 学习 结合 自定义 词典 命名 实体 识别 方法 | ||
本发明公开了一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:S1、用未标注数据预训练Bi‑LSTM语言模型;S2、在Embedding层采用字向量模型将每个字符向量化;S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;S4、加入用户自定义词典;S5、使用维特比解码求出序列中的最大概率路径。本发明将预训练的语言模型的输出和第一层双向LSTM的输出作拼接,并作为第二层双向LSTM的输入可以减少标注语料的使用,同时在切换领域时可以只更换新领域的标注语料。另外,在预测的时候通过自定义词典的设置,可以更改进入维特比解码的发射矩阵,从而达到自定义词典的效果。
技术领域
本发明涉及数据处理领域,面向命名实体识别技术应用,具体涉及一种半监督学习结合自定义词典的命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。NER是信息检索、查询分类、自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。半监督学习的基本思想是利用数据分布上的模型假设建立学习器对未标签样例进行标签。它的形式化描述是给定一个来自某未知分布的样例集S=LU,其中L是已标签样例集L={(x1,y1),(x2,y2),…,(x|L|,y|L|)},U是一个未标签样例集U={xc1,xc2,…,xc|U|},希望得到函数f:XyY可以准确地对样例x预测其标签y。其中xi,xc1均为d维向量,ytIY为样例xi的标签,|L|和|U|分别为L和U的大小,即所包含的样例数,半监督学习就是在样例集S上寻找最优的学习器。如果S=L,那么问题就转化为传统的有监督学习;反之,如果S=U,那么问题是转化为传统的无监督学习。如何综合利用已标签样例和未标签样例,是半监督学习需要解决的问题。
自定义词典是基于用户需求的产物,不同领域和行业的用户对实体有不同的定义和理解,因此有的词在某些用户看来是实体,而对其他用户来说,可能不是实体。因此用户自定义词典是很有必要的,通过词典可以提高命名实体识别的准确率,使其更符合用户的需求。
发明内容
针对现有技术的不足,本发明旨在提供一种半监督学习结合自定义词典的命名实体识别方法。
为了实现上述技术目的,本发明采用如下技术方案:
一种半监督学习结合自定义词典的命名实体识别方法,包括如下步骤:
S1、用未标注数据预训练Bi-LSTM语言模型;
S2、在Embedding层采用字向量模型将每个字符向量化;
S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;
序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;
S4、加入用户自定义词典:
经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;
S5、使用维特比解码求出序列中的最大概率路径:
将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910172675.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:命名实体识别方法、装置和计算机设备
- 下一篇:一种翻译质量的确定方法及装置





