[发明专利]一种基于LSTM的命名实体识别方法在审

专利信息
申请号: 201710946714.5 申请日: 2017-10-12
公开(公告)号: CN107885721A 公开(公告)日: 2018-04-06
发明(设计)人: 岳永鹏;唐华阳 申请(专利权)人: 北京知道未来信息技术有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京君尚知识产权代理事务所(普通合伙)11200 代理人: 邱晓锋
地址: 100102 北京市朝阳区阜*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lstm 命名 实体 识别 方法
【权利要求书】:

1.一种基于LSTM的命名实体识别方法,其特征在于,包括以下步骤:

1)对命名实体识别的训练语料进行标注,形成标注语料;

2)将标注语料中的词和字符转化为向量;

3)利用词和字符的向量建立基于LSTM的命名实体识别模型,并训练该命名实体识别模型的参数;

4)利用训练好的命名实体识别模型,对待预测的数据进行命名实体识别预测。

2.如权利要求1所述的方法,其特征在于,步骤1)按照IOBES的方式对训练语料进行标注。

3.如权利要求1所述的方法,其特征在于,步骤2)首先将输入的词转化为向量,然后将词中的每一个字符进行了拆解,用LSTM模型将词所包含的所有字符转化为向量,并对词和字符转化的向量进行拼接。

4.如权利要求3所述的方法,其特征在于,步骤3)所述基于LSTM的命名实体识别模型包括LSTM层和CRF层,步骤2)拼接的字符和词的向量输入到第一层LSTM神经元单元中,第一层LSTM的第i个LSTM单元的输出同时作为第一层LSTM的第i+1个LSTM单元的输入,而后将LSTM每一个神经单元的输出作为CRF模型的输入,从而计算出对应每个输入字符xi的yi,并设定语料中实际标记的结果为构造一个基于熵的损失函数L:

L=1nΣiy‾ilog(yi)+(1-y‾i)log(1-yi),]]>

其中n表示训练样本数量;而后将损失函数L转化为一个优化问题,求解:

Min L=1nΣiy‾ilog(yi)+(1-y‾i)log(1-yi).]]>

5.如权利要求4所述的方法,其特征在于,步骤3)采用Adam梯度下降算法训练L中的参数。

6.如权利要求5所述的方法,其特征在于,步骤3)在训练参数的过程中,将训练语料按照中文句法规则进行分句处理,并对分句后字符长度小于神经元个数的语句用数据0填充。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司,未经北京知道未来信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710946714.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top