[发明专利]用于提取关键词的方法、系统及存储介质有效
申请号: | 201910774424.6 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110598209B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 余本功;张宏梅;杨颖;曹雨蒙;张强;范招娣;朱梦迪;王胡燕;汲浩敏 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;刘兵 |
地址: | 230001 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提取 关键词 方法 系统 存储 介质 | ||
本发明提供一种用于提取关键词的方法、系统及存储介质,属于关键词的提取技术领域。所述方法包括:对每篇文档分别进行预处理以得到对应的候选关键词集合;构建候选关键词图;构成一个候选关键词词典;构建候选关键词词典的相似度矩阵;计算候选关键词集合中每个候选关键词在对应文档中的重要性;采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数;分别计算每个候选关键词的词语综合影响力;采用公式(1)对每个候选关键词图的候选关键词进行迭代计算,针对每个候选关键词图,根据权重值的大小对每个候选关键词进行降序排序,选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。
技术领域
本发明涉及关键词的提取技术领域,具体地涉及一种用于提取关键词的 方法、系统及存储介质。
背景技术
互联网技术的快速发展以及移动互联网的普及,以论坛、博客、头条以 及知乎社区等为代表的交互平台成为了人们共享知识和表达思想的重要渠 道。这些平台上的信息大多以非结构化的文本形式存储着对企业或是用户有 价值的信息,而这些信息伴随着大量的噪音数据,这使得用户捕捉信息变得 十分困难。因此,如何从大量的文本信息中提取有价值的信息反馈给用户, 且提高信息检索效率,成为了研究者们所要攻克的一个重要课题。
发明内容
本发明实施方式的目的是提供一种用于提取关键词的方法、系统及存储 介质。该方法、系统及存储介质可以准确地提取文档中关键词。
为了实现上述目的,本发明实施方式提供一种用于提取关键词的方法, 所述方法包括:
对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对 应的候选关键词集合;
分别根据每篇文档的所述候选关键词集合构建候选关键词图,其中,每 篇所述文档对应有至少一个所述候选关键词图;
将所有所述候选关键词集合进行合并以及去重处理,构成一个候选关键 词词典;
采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关 键词转化为对应的词向量,以构建所述候选关键词词典的相似度矩阵;
基于词语的统计特征计算所述候选关键词图中每个候选关键词在对应 文档中的重要性,其中,所述重要性包括词语节点出度特征、词语节点位置 特征以及词语节点频次特征;
采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、所述词 语节点位置特征以及所述词语节点频次特征的特征系数;
根据所述相似度矩阵和所述重要性分别计算每个所述文档中的每个候 选关键词图所对应的每个所述候选关键词的词语综合影响力;
采用公式(1)对每个所述候选关键词图中的词语节点定义新的迭代计 算,
其中,TR(vi)、TR(vj)分别为候选关键词vi、候选关键词vj的TextRank值, d为阻尼因子,δ、σ为预设的系数值,为候选关 键词vi指向候选关键词vj的词语综合影响力之和,R(vj)为候选关键词vj的初始 的TextRank值,V为所述候选关键词集合,W(vj,vi)为候选关键词vj指向候选 关键词vi的所述词语综合影响力;
分别针对迭代计算完成的每个所述候选关键词图,根据权重值的大小对 每个候选关键词进行降序排序,选取前预设数量值N个候选关键词作为所述 候选关键词图对应的所述文本的关键词集合。
可选地,对接收到的文档集中的每篇文档分别进行预处理以得到与每篇 文档对应的候选关键词集合,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910774424.6/2.html,转载请声明来源钻瓜专利网。