[发明专利]用于提取关键词的方法、系统及存储介质有效
申请号: | 201910774424.6 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110598209B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 余本功;张宏梅;杨颖;曹雨蒙;张强;范招娣;朱梦迪;王胡燕;汲浩敏 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;刘兵 |
地址: | 230001 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种用于提取关键词的方法、系统及存储介质,属于关键词的提取技术领域。所述方法包括:对每篇文档分别进行预处理以得到对应的候选关键词集合;构建候选关键词图;构成一个候选关键词词典;构建候选关键词词典的相似度矩阵;计算候选关键词集合中每个候选关键词在对应文档中的重要性;采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数;分别计算每个候选关键词的词语综合影响力;采用公式(1)对每个候选关键词图的候选关键词进行迭代计算,针对每个候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。 | ||
搜索关键词: | 用于 提取 关键词 方法 系统 存储 介质 | ||
【主权项】:
1.一种用于提取关键词的方法,其特征在于,所述方法包括:/n对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对应的候选关键词集合;/n分别根据每篇文档的所述候选关键词集合构建候选关键词图,其中,每篇所述文档对应有至少一个所述候选关键词图;/n将所有所述候选关键词集合进行合并以及去重处理,构成一个候选关键词词典;/n采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩阵;/n基于词语的统计特征计算所述候选关键词图中每个候选关键词在对应文档中的重要性,其中,所述重要性包括词语节点出度特征、词语节点位置特征以及词语节点频次特征;/n采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、所述词语节点位置特征以及所述词语节点频次特征的特征系数;/n根据所述相似度矩阵和所述重要性分别计算每个所述文档中的每个候选关键词图所对应的每个所述候选关键词的词语综合影响力;/n采用公式(1)对每个所述候选关键词图中的词语节点定义新的迭代计算,/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910774424.6/,转载请声明来源钻瓜专利网。