[发明专利]一种基于Lattice-LSTM的改进中文命名实体识别方法在审
申请号: | 202010167070.1 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111476031A | 公开(公告)日: | 2020-07-31 |
发明(设计)人: | 甘玲;黄成明 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lattice lstm 改进 中文 命名 实体 识别 方法 | ||
本发明涉及一种基于Lattice‑LSTM的改进中文命名实体识别方法,属于语言处理技术领域。该方法包括以下步骤:S1:构建模型;S2:特征输入;S3:特征提取;S4:标签预测;S5:结果评价。本发明采用改进的LSTM结构,计算句子较为完整的语意上的隐藏信息,同时也加入了对于整个句子全局信息的考虑,更多的是句子结构的角度出发开了,弥补了采用LSTM结构只关注文字意义的隐藏信息而未考虑句子结构信息的不足,融合了Transformer结构后,使得模型能够一定程度理解复杂句子背后所具有的逻辑性,从而帮助识别语句中的命名实体类别。
技术领域
本发明属于语言处理技术领域,涉及一种基于Lattice-LSTM的改进中文命名实体识别方法。
背景技术
命名实体识别最早由Grishman和Sundheim在1996年第六次信息理解会议上组织,命名实体识别的发展大致可以分为三个阶段,分别是早期的利用手工规则进行实体类识别的初级阶段,以及后期在2000年左右使用的机器学习方法结合概率模型来识别实体类的进阶阶段,再到目前比较流行的基于深度学习方法结合语言模型的深入阶段,各个阶段都有一些值得学习的有点,下面分别从这三个阶段进行介绍。
早期的利用手工规则的方案是结合了字典构造、规范化构词的方法进行,在分类的过程中存在工程量大、耗时较长的弊端,很快便被基于概率理论的方法替换,但是这也提供了一些指引,引发如何构造更廉价、更加优秀的模型的思考,在机器学习方法的大规模应用阶段时期,由于前人已经有许多非常丰富、较为完善的理论模型,因此这一阶段主要是结合概率理论方法,把理论落脚于实际的生产生活中,并取得了积极的效果,并且在这一阶段中,主要的国外的理论和实践结合的较为密切,并出现了不少优秀的模型,比如隐马尔可夫模型(HMM),最大熵模型(EM),支持向量机模型(SVM)以及条件随即场模型(CRF),这几种模型存在一定的关联,主要是后者对于前者的一些弱点的补充,同时国内也开始关注于中文命名实体识别的理论与实际的应用,也出现了一些针对于中文文字特征构建的特征工程,从而进一步的通过机器学习进行实体标签预测。
深度学习方法在2014年后开始大规模流行起来,这得益于软硬件的成熟,同时也伴随着互联网的崛起,网络中的文本信息成爆炸性增长,这也是深度学习海量数据的来源,在各方面条件成熟后,深度学习也逐步充理论走向实践,在命名实体识别方向也涌现出许多的模型及思想,进一步在机器学习的基础上弥补其不足,更加的接近人们的生产生活中,其中的一些重要模型有BERT模型、GPT-2.0模型、xlnet模型等,都是目前深度学习的标杆性模型,不少模型的思想也在影响着命名实体识别的模型改进方向,同时也取得了进一步的效果。
针对中文命名实体识别方向,目前主要有以下几种方案:
(1)基于中文文本的特征,思考进一步提取文本特征信息的方案,其本质和机器学习较为相似,期望能够提取出更多有效信息,辅助最终对每一个文字的标签预测,基本的文本特征有单个汉字的字符向量特征,以及对一句话通过分词后的词向量特征,而后又出现了利用文字拼音、偏旁等字符特征,计算文字标签的概率。
(2)基于中文文本的特征,然后选择利用LSTM结构所自有的对顺序语言逻辑的特征的提取,可以将语句中前面文字的信息进行选择与当前文字信息进行融合,通过一系列公式的计算,得到当前文字的隐藏状态,然后计算当前文字的标签概率,由于LSTM只能计算一句话的单向的文本隐藏信息,因此采用了双向的LSTM结构,即bi-LSTM结构,然后将双向的隐藏状态通过维度的拼接作为最终文字标签概率计算的输入,并取得了较好的效果。
(3)在LSTM结构基础上,有研究者进一步的深化研究,在LSTM内部进行进一步的改进,期望将字符特征与词特征依照语句顺序序列融合,有选择的将词特征融入字符特征的计算中,进一步的提升命名实体的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010167070.1/2.html,转载请声明来源钻瓜专利网。