[发明专利]用于提取关键词的方法、系统及存储介质有效

申请号：	201910774424.6	申请日：	2019-08-21
公开（公告）号：	CN110598209B	公开（公告）日：	2022-11-04
发明（设计）人：	余本功;张宏梅;杨颖;曹雨蒙;张强;范招娣;朱梦迪;王胡燕;汲浩敏	申请（专利权）人：	合肥工业大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/247
代理公司：	北京润平知识产权代理有限公司 11283	代理人：	肖冰滨;刘兵
地址：	230001 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种用于提取关键词的方法、系统及存储介质，属于关键词的提取技术领域。所述方法包括：对每篇文档分别进行预处理以得到对应的候选关键词集合；构建候选关键词图；构成一个候选关键词词典；构建候选关键词词典的相似度矩阵；计算候选关键词集合中每个候选关键词在对应文档中的重要性；采用层次分析法确定相似度矩阵、词语节点出度特征、词语节点位置特征以及词语节点频次特征的特征系数；分别计算每个候选关键词的词语综合影响力；采用公式(1)对每个候选关键词图的候选关键词进行迭代计算，针对每个候选关键词图，根据权重值的大小对每个候选关键词进行降序排序，选取前N个候选关键词作为候选关键词图对应的文本的关键词集合。
搜索关键词：	用于提取关键词方法系统存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种用于提取关键词的方法，其特征在于，所述方法包括：/n对接收到的文档集中的每篇文档分别进行预处理以得到与每篇文档对应的候选关键词集合；/n分别根据每篇文档的所述候选关键词集合构建候选关键词图，其中，每篇所述文档对应有至少一个所述候选关键词图；/n将所有所述候选关键词集合进行合并以及去重处理，构成一个候选关键词词典；/n采用训练完成的word2vec模型将所述候选关键词词典中的每个候选关键词转化为对应的词向量，以构建所述候选关键词词典的相似度矩阵；/n基于词语的统计特征计算所述候选关键词图中每个候选关键词在对应文档中的重要性，其中，所述重要性包括词语节点出度特征、词语节点位置特征以及词语节点频次特征；/n采用层次分析法确定所述相似度矩阵、所述词语节点出度特征、所述词语节点位置特征以及所述词语节点频次特征的特征系数；/n根据所述相似度矩阵和所述重要性分别计算每个所述文档中的每个候选关键词图所对应的每个所述候选关键词的词语综合影响力；/n采用公式(1)对每个所述候选关键词图中的词语节点定义新的迭代计算，/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910774424.6/，转载请声明来源钻瓜专利网。

上一篇：AI/ML增强发音课程设计和个性化练习计划方法
下一篇：实体识别模型训练、实体识别方法、装置、设备及介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于提取关键词的方法、系统及存储介质有效

专利文献下载