[发明专利]一种提取技术成果、技术需求的关键词和文摘的方法在审

专利信息
申请号: 202111565133.X 申请日: 2021-12-20
公开(公告)号: CN114328826A 公开(公告)日: 2022-04-12
发明(设计)人: 郑鑫;杨尚伟;逄凯;徐楠楠;陈丽娜 申请(专利权)人: 青岛檬豆网络科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/34;G06F40/216;G06F40/289
代理公司: 武汉聚信汇智知识产权代理有限公司 42258 代理人: 郝雅娟
地址: 266000 山东省青*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 提取 技术成果 技术 需求 关键词 文摘 方法
【权利要求书】:

1.一种提取技术成果、技术需求的关键词和文摘的方法,其特征在于,所述方法包括如下步骤:

步骤一:文本预处理,包括对文本中的英文字符,进行统一处理,均采用小写进行表示;

步骤二:基于TextRank的方法提取关键词,具体包括:

(1)把给定的文本T按照完整句子进行分割,即

T=[S1,S2,…,Si,…,Sm]

(2)对于每个句子Si∈T,进行分词和词性标注处理,并过滤停用词,只保留指定词性的单词,即Si=[ti,1,ti,2,…,ti,j,…],其中ti,j∈Sj是保留后的候选关键词;

(3)构建候选关键词图G=(V,E),由点集合V和边集合E组成,E是V×V的子集,其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系构造任两点之间的边,两个节点之间存在边,仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词,设置k=2;

(4)根据公式(1),迭代传播各节点的权重,直至达到停止条件;

其中,WS(Vi)表示句子Si的权重得分;wji表示两个句子Si、Sj之间边的权重,用两个句子的相似度表示;WS(Vj)表示上次迭代出的句子Sj的权重;d为阻尼系数,代表从图中某一节点指向其他任意节点的概率,取d=0.85;In(Vi)为指向Vi节点的集合,Out(Vj)为Vj节点指出的集合;各个节点的权重得分,初始化为1;

其中,Si,Sj表示两个句子;wk表示句子中的词;|wk|wk∈Si∩wk∈Sj|表示同时出现两个句子中的同义词的数量;log(|Si|)+log(|Sj|)表示对句子中词的个数求对数后的求和;wji表示计算两个节点之间,即两个句子之间的相似度;

(5)对节点权重进行倒叙排序,即按照权重得分由大到小排序,按照点集V中的词进行排序并且不改变点集中的词的顺序,从而得到最重要的top_t个单词,作为候选关键词,top-t根据使用过程或具体情境进行设置,先设置top_t=15;

(6)由(5)得到最重要的top_t个单词,在原始文本中进行标记,并进行以下处理:

①若形成相邻词组且文中出现次数满足条件则组合成多词关键词,暂定δ=0.8;

其中,(wi,wj)表示词wi,wj构成的词组,|wi|wi∈T|表示文本T中词wi出现的次数,|wj|wj∈T|表示文本T中词wj出现的次数,max(|wi|wi∈T|,|wj|wj∈T|)表示文本T中出现词wi,wj的较大值;

②若形成相邻词组且文中出现次数满足条件则组合成多词关键词和出现次数较多的词;

(7)由(6)进行多词关键词的处理后,得到关键词列表,记作Keynow=[keyn1,keyn2,…,keyni,…];

其中,keyni表示当前技术成果列表Keynow的第i个关键词;

(8)去关键词,得到当前技术成果的最终关键词列表;

将得到的关键词列表,添加到已有关键词总列表中,刷新其出现在技术成果的描述中的篇数;已在关键词总列表中的关键词,即将该关键词对应的次数+1;若关键词总列表中无关键词,则在关键词总列表中增加该关键词,并记录其篇数为1;其中的关键词总列表,是目前所有技术成果中提取的关键词列表,及各关键词出现在技术成果描述中的篇数每出现在一篇技术成果中,篇数+1;

步骤三:提取文摘

(1)根据二(4)计算的节点权重,进行倒叙排序,即按照权重得分由大到小排序,抽取文摘句,抽取重要度最高的top_n个句子作为候选文摘句;

(2)形成文摘,根据句子数或字数要求,从候选文摘句中抽取句子组成文摘。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛檬豆网络科技有限公司,未经青岛檬豆网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111565133.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top