[发明专利]一种改进的TextRank关键词提取方法及装置有效
申请号: | 202110201095.3 | 申请日: | 2021-02-23 |
公开(公告)号: | CN112948527B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 赵娜;杨燕;王莹港;郁湧;王剑;康雁;王鑫锴;张强荐;胡盛;柴焰明;龙镇;文俊杰;马伟云 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F40/284 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650000 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 textrank 关键词 提取 方法 装置 | ||
1.一种改进的TextRank关键词提取方法,其特征在于,包括:
获取初始文本,并对所述初始文本进行预处理,确定候选关键词总集;所述预处理是指将所述初始文本划分为多个句子,对任一句子进行分词、词性标注、词性过滤以及去停用词处理后,确定任一句子对应的候选关键词集;所述候选关键词总集包括多个候选关键词集;
根据候选关键词总集,构建词共现网络;
根据所述词共现网络,获取第一节点及第二节点,所述第一节点为任一节点,所述第二节点为所述第一节点任一相邻的节点;
获取所述第一节点的度中心性,以及,获取所述第二节点的度中心性;
获取所述第一节点的聚类系数,以及,获取所述第二节点的聚类系数;
根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重;以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重,
所述确定第一节点和第二节点的初始权重按照如下方法计算获得:
根据所述第一节点的度中心性、所述第一节点的聚类系数和预设的可调节参数,确定所述第一节点的初始权重,以及,根据所述第二节点的度中心性、所述第二节点的聚类系数和所述可调节参数,确定所述第二节点的初始权重,
具体通过如下公式计算所述第一节点vi的初始权重wci:
wci=α*kci+β*cci;
其中,kci为所述第一节点vi的度中心性,cci为所述第一节点vi的聚类系数,α、β为可调节参数,且α+β=1,
同理可以获取所述第二节点vj的初始权重wcj;
根据所述词共现网络,获取节点总数、第一相邻节点的集合、第二相邻节点的集合,所述第一相邻节点是指与所述第一节点相邻的节点,所述第二相邻节点是指与所述第二节点相邻的节点;
根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重,
所述计算第一节点与第二节点之间的连边权重的方法如下:
根据所述第一节点的初始权重、所述第二节点的初始权重、所述第一相邻节点的集合和所述第二相邻节点的集合,确定所述第一节点与所述第二节点之间的连边权重,包括:
通过如下公式确定所述第一节点与所述第二节点之间的连边权重:
其中,wij表示所述第一节点vi与所述第二节点vj之间的连边权重,wci表示所述第一节点vi的初始权重,wcj表示所述第二节点vj的初始权重,τ(i)表示所述第一相邻节点的集合,τ(j)表示所述第二相邻节点的集合,具体来说∑keτ(i)wck表示将所有第一相邻节点对应的初始权重进行求和,∑keτ(j)wck表示将所有第二相邻节点对应的初始权重进行求和;
根据所述节点总数、预设的阻尼系数、所述第一相邻节点的集合、所述第一节点与所述第二节点之间的连边权重和所述第二节点的初始权重,确定所述第一节点的重要性分值,
所述第一节点的重要性分值按如下方式计算:
首先赋给所有节点一个相同的初始值;即所述第一节点vi的初始重要性分值S(vi)0,所述第二节点vj的初始重要性分值S(vj)0,且S(vi)0=S(vj)0,
进一步通过如下公式进行迭代计算:
其中,d表示阻尼系数,N表示词共现网络中节点的个数,wcj表示所述第二节点vj的初始权重;
在进行迭代计算的过程中,所述第一节点vi的重要性分值和所述第二节点vj的重要性分值都是在不断更新变化的,当存在S(vi)n与S(vi)n-1之间的误差小于0.001时,便停止迭代,并输出此时第一节点vi的重要性分值S(vi)n;
根据所述第一节点的重要性分值和预设的位置系数,确定所述第一节点的最终权重;
根据所述第一节点的最终权重,对全部节点进行降序排列并舍去单字词节点,确定所述初始文本的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110201095.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种培育金黄色游离有核珍珠的方法
- 下一篇:一种重金属汞吸附剂及其制备方法