[发明专利]一种基于Lattice-LSTM的改进中文命名实体识别方法在审

专利信息
申请号: 202010167070.1 申请日: 2020-03-11
公开(公告)号: CN111476031A 公开(公告)日: 2020-07-31
发明(设计)人: 甘玲;黄成明 申请(专利权)人: 重庆邮电大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04;G06N3/08
代理公司: 北京同恒源知识产权代理有限公司 11275 代理人: 赵荣之
地址: 400065 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lattice lstm 改进 中文 命名 实体 识别 方法
【权利要求书】:

1.一种基于Lattice-LSTM的改进中文命名实体识别方法,其特征在于:该方法包括以下步骤:

S1:构建模型;

S2:特征输入;

S3:特征提取;

S4:标签预测;

S5:结果评价。

2.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法,其特征在于:所述S1具体为:基于Lattice-LSTM模型,引入Transformer结构编码器部分,使用python语言编写并调试;

实验数据集包括weibo数据集、微软MSRA数据集和resumne数据集。

3.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法,其特征在于:所述S2具体为:

以高维的数字向量,代表一句话中的每一个文字,而最终参与计算的是这些高维向量,使用特征信息,包括词向量、汉语拼音特征、汉语偏旁特征和汉语字形特征;

将多种特征拼接后表达这一个汉语字符的特征,这些特征是采取不同的模型训练而来的高纬度向量。

4.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法,其特征在于:所述S3具体为:分为两个方面的特征提取;

一方面是对于一句话中的文字信息本身的特征提取,使用LSTM结构的针对中文的改进模型Lattic-LSTM结构,融合单一汉字的特征与一句话分词后每一个词的特征,同时采用双向的结构,从正向顺序提取语句特征,以及逆向的提取语句特征,将二者拼接,得到这句话的基本文字信息;

另一方面是采用Transformer结构,通过计算一句话中不同文字的重要程度,然后计算句子中文字的特征信息,再采用前向网络结构,充分的映射融合其隐藏信息,得到句子的结构信息,而句子的结构信息是从整个句子全局出发提取的信息,能概述性表达句子的整体特征,将该信息与计算的文字信息相结合,表达整句话的语意和结构的特征信息。

5.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法,其特征在于:所述S4具体为:采用主流结构条件随机场CRF结构,基于维特比算法解码上一部分的特征信息,计算出整个语句的全局最优标签序列,而这个标签序列则是预测的整个句子的实体标签类别。

6.根据权利要求1所述的一种基于Lattice-LSTM的改进中文命名实体识别方法,其特征在于:所述S5具体为:结果评价指标:包括精确率、召回率和综合评价指标F1,计算方式如下:

精确率:P=TP/(TP+FP)

召回率:R=TP/(TP+FN)

综合评价指标:F1=2PR/(P+R)

其中,TP:正样本被预测为正样本;FP:负样本被预测为正样本;FN:正样本被预测为负样本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010167070.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top