[发明专利]一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法在审

专利信息
申请号: 201910404547.0 申请日: 2019-05-15
公开(公告)号: CN110807084A 公开(公告)日: 2020-02-18
发明(设计)人: 董志安;吕学强;孙少奇 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06K9/62;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 机制 bi lstm 关键词 策略 专利 术语 关系 抽取 方法
【权利要求书】:

1.一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,包括以下步骤:

步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;

步骤2):将向量矩阵导入Bi-LSTM模型中,采用注意力机制获得文本信息的整体特征;

步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;

步骤4):将整体特征和局部特征融合;

步骤5):使用softmax分类器输出分类结果。

2.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤1)中改进的TextRank算法具体为:

步骤A:输入待处理的专利文本信息集S={s1,s2,s3,...,sn},并设定参数:阻尼系数d、滑动窗口大小w、最大迭代次数I、迭代停止阈值

步骤B:将专利文本信息集S中对应的每个文本si进行分词、词性标注,过滤掉停用词并只保留指定词性的词语(动词、形容词、名词),这些词形成最终候选的类别特征关键词;

步骤C:通过TF-IDF算法计算专利文本信息集S中每个词语的TF-IDF值;

步骤D:基于滑动窗口大小w遍历专利文本信息词语,然后采用共现关系(co-occurrence)构造任两个词语之间的边,从而构建由si中的词语构成的关键词图Gi

步骤E:根据公式(1)迭代计算关键词图Gi中每个词语的权重,直至收敛,公式(1)如下所示:

其中:W(vi)为节点vi的权值;d为阻尼系数,表示从图中某一特定节点指向其他任意节点的概率,设置为0.85;In(vi)表示指向节点vi的节点集合;Out(vj)表示从节点vj出发的边指向的节点集合;wji表示节点vj到vi的边的权值,W′(vi)TF-IDF表示节点vi的TF-IDF值;

步骤F:通过权值大小对关键词图Gi中的每个词语进行排序,选择权值最大且词性为动词的词语作为类别特征关键词。

3.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤2)具体为:注意力层所使用的公式如(2)、(3)、(4)所示:

M=tanh(H)(2)

α=softmax(wTM)(3)

其中,H是由Bi-LSTM层T个时刻输出的矩阵[h1,h2,h3,...,hT]且dw表示词向量的维度;w表示训练参数向量且wT表示w的转置;α表示注意力概率分布向量;h*表示学习到的句子表示。

4.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤3)具体为:对于Bi-LSTM模型的输出结果H使用最大池化的方法对其进行统计计算,如公式(5)所示:

h′=maxpool(H)(5)。

5.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤4)具体为:特征融合是将注意力层和池化层的计算结果进行合并,如公式(6)所示:

其中表示向量拼接。

6.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤5)具体为:使用softmax分类器从句子S的离散类Y集合中预测标签分类器将特征融合之后的结果作为输入,公式如(7)、(8)所示:

所使用的损失函数是真实类标签y的负对数似然函数,并使用L2正则化来防止过拟合,计算公式如(9)所示:

其中,表示真实类别标签y的one-hot形式,表示softmax对每个类的估计概率;m表示训练样本个数;示L2正则化超参数;示模型可训练参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910404547.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top