[发明专利]一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法在审

专利信息
申请号: 201910404547.0 申请日: 2019-05-15
公开(公告)号: CN110807084A 公开(公告)日: 2020-02-18
发明(设计)人: 董志安;吕学强;孙少奇 申请(专利权)人: 北京信息科技大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/289;G06K9/62;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 注意力 机制 bi lstm 关键词 策略 专利 术语 关系 抽取 方法
【说明书】:

本发明涉及一种基于注意力机制的Bi‑LSTM和关键词策略的专利术语关系抽取方法,包括以下步骤:步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;步骤2):将向量矩阵导入Bi‑LSTM模型中,采用注意力机制获得文本信息的整体特征;步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;步骤4):将整体特征和局部特征融合;步骤5):使用softmax分类器输出分类结果。本发明以专利术语关系抽取为基础,针对传统深度学习方法中存在的长距离依赖问题,本发明提出一种基于注意力机制的Bi‑LSTM和关键词策略的专利术语关系抽取方法。通过各种实验对比,本发明的效果优于已有的方法,可以很好地满足实际应用的需要。

技术领域

本发明属于专利术语关系抽取技术领域,具体涉及一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法。

背景技术

随着社会发展和科技进步,人们对科研成果的保护意识逐渐增加,专利申请数量也逐年上升,为了更加有效的分析专利之间的联系,优化专利的检索,专利术语关系自动抽取的研究受到越来越多学者的重视,以往靠人工收集和非监督学习算法的抽取已经远远不能满足人们的需求,利用计算机自动抽取专利术语关系已经成为必然。专利术语关系自动抽取对于专利信息检索、专利相似度检测、专利领域本体构建、专利知识图谱构建以及潜在语义分析等工作有着重要的作用。

目前,关系抽取主要研究方法包括基于模式匹配的方法、基于词典驱动的方法、基于统计的机器学习方法和基于多方法混合的方法,但这些方法都需要人工提取特征,如词性、依存关系、语义角色等;或者在一定程度上依赖自然语言处理工具,如词性标注、句法分析等,然而不同工具的处理结果会存在一定的差异,从而影响最终的抽取结果。

近年来,利用深度学习的方法进行实体关系抽取成为主流,可以自动的学习并获取有效的文本特征,这种方法在不使用基础自然语言处理工具的情况下,在多个自然语言处理任务中取得了超过传统方法的性能,但这种方法在表征句子的局部特征及全局特征仍有不足。

发明内容

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法。

为了实现上述发明目的,本发明采用的技术方案如下:

一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法,包括以下步骤:

步骤1):对专利文本进行预处理,识别出术语特征,同时加入位置信息,并通过改进的TextRank算法获得类别关键词特征,并将其组成向量矩阵;

步骤2):将向量矩阵导入Bi-LSTM模型中,采用注意力机制获得文本信息的整体特征;

步骤3):利用最大池化层选择每个句子的关键特征作为局部特征;

步骤4):将整体特征和局部特征融合;

步骤5):使用softmax分类器输出分类结果。

进一步地,所述步骤1)中改进的TextRank算法具体为:

步骤A:输入待处理的专利文本信息集S={s1,s2,s3,...,sn},并设定参数:阻尼系数d、滑动窗口大小w、最大迭代次数I、迭代停止阈值

步骤B:将专利文本信息集S中对应的每个文本si进行分词、词性标注,过滤掉停用词并只保留指定词性的词语(动词、形容词、名词),这些词形成最终候选的类别特征关键词;

步骤C:通过TF-IDF算法计算专利文本信息集S中每个词语的TF-IDF值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910404547.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top