[发明专利]一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法在审
| 申请号: | 201910404547.0 | 申请日: | 2019-05-15 |
| 公开(公告)号: | CN110807084A | 公开(公告)日: | 2020-02-18 |
| 发明(设计)人: | 董志安;吕学强;孙少奇 | 申请(专利权)人: | 北京信息科技大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06K9/62;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 bi lstm 关键词 策略 专利 术语 关系 抽取 方法 | ||
1.一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,包括以下步骤:
步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;
步骤2):将向量矩阵导入Bi-LSTM模型中,采用注意力机制获得文本信息的整体特征;
步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;
步骤4):将整体特征和局部特征融合;
步骤5):使用softmax分类器输出分类结果。
2.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤1)中改进的TextRank算法具体为:
步骤A:输入待处理的专利文本信息集S={s1,s2,s3,...,sn},并设定参数:阻尼系数d、滑动窗口大小w、最大迭代次数I、迭代停止阈值
步骤B:将专利文本信息集S中对应的每个文本si进行分词、词性标注,过滤掉停用词并只保留指定词性的词语(动词、形容词、名词),这些词形成最终候选的类别特征关键词;
步骤C:通过TF-IDF算法计算专利文本信息集S中每个词语的TF-IDF值;
步骤D:基于滑动窗口大小w遍历专利文本信息词语,然后采用共现关系(co-occurrence)构造任两个词语之间的边,从而构建由si中的词语构成的关键词图Gi;
步骤E:根据公式(1)迭代计算关键词图Gi中每个词语的权重,直至收敛,公式(1)如下所示:
其中:W(vi)为节点vi的权值;d为阻尼系数,表示从图中某一特定节点指向其他任意节点的概率,设置为0.85;In(vi)表示指向节点vi的节点集合;Out(vj)表示从节点vj出发的边指向的节点集合;wji表示节点vj到vi的边的权值,W′(vi)TF-IDF表示节点vi的TF-IDF值;
步骤F:通过权值大小对关键词图Gi中的每个词语进行排序,选择权值最大且词性为动词的词语作为类别特征关键词。
3.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤2)具体为:注意力层所使用的公式如(2)、(3)、(4)所示:
M=tanh(H)(2)
α=softmax(wTM)(3)
其中,H是由Bi-LSTM层T个时刻输出的矩阵[h1,h2,h3,...,hT]且dw表示词向量的维度;w表示训练参数向量且wT表示w的转置;α表示注意力概率分布向量;h*表示学习到的句子表示。
4.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤3)具体为:对于Bi-LSTM模型的输出结果H使用最大池化的方法对其进行统计计算,如公式(5)所示:
h′=maxpool(H)(5)。
5.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤4)具体为:特征融合是将注意力层和池化层的计算结果进行合并,如公式(6)所示:
其中表示向量拼接。
6.根据权利要求1所述的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,其特征在于,所述步骤5)具体为:使用softmax分类器从句子S的离散类Y集合中预测标签分类器将特征融合之后的结果作为输入,公式如(7)、(8)所示:
所使用的损失函数是真实类标签y的负对数似然函数,并使用L2正则化来防止过拟合,计算公式如(9)所示:
其中,表示真实类别标签y的one-hot形式,表示softmax对每个类的估计概率;m表示训练样本个数;示L2正则化超参数;示模型可训练参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910404547.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抗磨牙布
- 下一篇:一种组焊风电塔筒构件使用的工装





