[发明专利]用于提取关键词的方法、系统及存储介质有效
申请号: | 201910774424.6 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110598209B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 余本功;张宏梅;杨颖;曹雨蒙;张强;范招娣;朱梦迪;王胡燕;汲浩敏 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;刘兵 |
地址: | 230001 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提取 关键词 方法 系统 存储 介质 | ||
1.一种用于提取关键词的方法,其特征在于,所述方法包括:
对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对应的候选关键词集合;
分别根据每篇文档的所述候选关键词集合构建候选关键词图,其中,每篇所述文档对应有至少一个所述候选关键词图;
将所有所述候选关键词集合进行合并以及去重处理,构成一个候选关键词词典;
采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩阵;
基于词语的统计特征计算所述候选关键词图中每个候选关键词在对应文档中的重要性,其中,所述重要性包括词语节点出度特征、词语节点位置特征以及词语节点频次特征;
采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、所述词语节点位置特征以及所述词语节点频次特征的特征系数;
根据所述相似度矩阵和所述重要性分别计算每个所述文档中的每个候选关键词图所对应的每个所述候选关键词的词语综合影响力;
采用公式(1)对每个所述候选关键词图中的词语节点定义新的迭代计算,
其中,TR(vi)、TR(vj)分别为候选关键词vi、候选关键词vj的TextRank值,d为阻尼因子,δ、σ为预设的系数值,为候选关键词vi指向候选关键词vj的词语综合影响力之和,R(vj)为候选关键词vj的初始的TextRank值,V为所述候选关键词集合,W(vj,vi)为候选关键词vj指向候选关键词vi的所述词语综合影响力;
分别针对迭代计算完成的每个所述候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前预设数量值N个候选关键词作为所述候选关键词图对应的所述文本的关键词集合。
2.根据权利要求1所述的方法,其特征在于,对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对应的候选关键词集合,具体包括:
对所述文档进行分句、分词和去停用词,保留词性为名词、动词、形容词、副词的词语。
3.根据权利要求1所述的方法,其特征在于,分别根据每篇文档的所述候选关键词集合构建候选关键词图包括:
根据公式(2)计算初始的所述候选关键词图中每个候选关键词的TextRank值,
其中,R(vi)为候选关键词vi的TextRank值,OD(vj)为候选关键词vj的出度,d为阻尼因子,V为所述候选关键词集合,R(vj)为候选关键词vj的权重。
4.根据权利要求1所述的方法,其特征在于,采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩阵具体包括:
根据公式(3)计算每两个所述候选关键词的相似度,
其中,Sim(ui,uj)为所述词向量ui和词向量uj的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910774424.6/1.html,转载请声明来源钻瓜专利网。