[发明专利]一种半监督学习结合自定义词典的命名实体识别方法有效
| 申请号: | 201910172675.7 | 申请日: | 2019-03-07 |
| 公开(公告)号: | CN109858041B | 公开(公告)日: | 2023-02-17 |
| 发明(设计)人: | 苏海波;高体伟;孙伟;王然;于帮付;黄伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F16/35;G06N3/0442;G06N3/045;G06N3/0895 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
| 地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 监督 学习 结合 自定义 词典 命名 实体 识别 方法 | ||
1.一种半监督学习结合自定义词典的命名实体识别方法,其特征在于,包括如下步骤:
S1、用未标注数据预训练Bi-LSTM语言模型;其中,采用的Bi-LSTM,前向和后向并不进行参数共享,两层LSTM都采用不同的参数进行训练,也就是说两层LSTM是独立的;
S2、在Embedding层采用word2vec模型将每个字符向量化;具体采用Skip-gram方法进行字向量模型训练,具体步骤为:
(1)首先收集应用领域相关的均衡语料;
(2)针对步骤(1)收集的语料数据作预处理,包括过滤掉垃圾数据、停低频字和无意义符号,以及整理成训练数据的格式,得到训练数据;
(3)将训练数据送给Skip-gram模型,训练得到字向量模型;
S3、采用两层的双向LSTM作为序列标注模型,所述序列标注模型采用标注数据训练;
序列标注模型的训练过程中,将序列标注模型的第一层双向LSTM的输出向量与步骤S1中预训练得到的Bi-LSTM语言模型的输出作拼接,然后将拼接的向量经过一个全连接层后作为序列标注模型的第二层双向LSTM的输入;
S4、加入用户自定义词典:
经过序列标注模型的两层双向LSTM之后会得到发射矩阵X,经过CRF层,通过最大似然概率得到转移矩阵Y,然后根据用户自定义词典调整发射矩阵的概率,得到调整后的发射矩阵X;
S5、使用维特比解码求出序列中的最大概率路径:
将步骤S4中得到的根据用户自定义词典调整后的发射矩阵X和转移矩阵Y输入到CRF层的维特比解码,得到序列标注,即正确的命名实体识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910172675.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:命名实体识别方法、装置和计算机设备
- 下一篇:一种翻译质量的确定方法及装置





