[发明专利]关键词提取方法以及关键词提取装置在审
申请号: | 201710067269.5 | 申请日: | 2017-02-06 |
公开(公告)号: | CN108319627A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 王煦祥;尹庆宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选词 语句 文本 排序算法 分析 权重 关键词提取装置 关键词提取 准确度 无向图 关联度 分词 引力 词语 排序 创建 | ||
1.一种关键词提取方法,其特征在于,包括:
对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;
对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;
根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;
根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;
基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;
基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及
根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。
2.根据权利要求1所述的关键词提取方法,其特征在于,所述对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度的步骤包括:
对所述分析语句进行依存句法分析,获取所述分析语句中所有候选词的依存关系路径;以及
基于所述分析语句中各个候选词与分析语句中其他候选词的依存关系路径长度,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度。
3.根据权利要求2所述的关键词提取方法,其特征在于,所述关键词提取方法还包括步骤:
对所述分词语句的词语单元进行去停用词处理,以得到所述分析语句的候选词以及停用词。
4.根据权利要求1所述的关键词提取方法,其特征在于,所述根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力的步骤包括:
基于语言模型训练方法,获取所述提取文本中候选词的词向量;
计算所述提取文本中候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离;以及
根据所述提取文本中的候选词的出现频率、以及所述候选词的词向量与所述提取文本中其他候选词的词向量的欧氏距离,确定所述候选词与所述提取文本中其他候选词的词引力。
5.根据权利要求1所述的关键词提取方法,其特征在于,所述基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分的步骤包括:
通过以下公式对所述有权无向图的每个顶点的顶点得分进行迭代收敛运算直至每次运算的顶点得分变化率小于设定值:
其中d为阻尼系数,
weight(vi,vj)表示有权无向图中的顶点i和顶点j之间的权重边的相关权重,
weight(vj,vk)表示有权无向图中的顶点j和顶点k之间的权重边的相关权重,
WS(vi)表示有权无向图中的顶点i的顶点得分,
C(vi)表示与顶点i具有权重边的顶点集合,
C(vj)表示与顶点j具有权重边的顶点集合。
6.根据权利要求1所述的关键词提取方法,其特征在于,包括:所述根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词的步骤包括:
判断所述候选词是否具有重复候选词;
如具有重复候选词,将所述重复候选词删除,并获取所述重复候选词对应的最大顶点得分;
判断所述重复候选词对应的最大顶点得分是否大于所述候选词的顶点得分;
如所述重复候选词对应的最大顶点得分大于所述候选词的顶点得分,则将所述重复候选词对应的最大顶点得分设定为所述候选词的顶点得分;以及
将顶点得分最高的设定数量的候选词设定为所述提取文本的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710067269.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于名称信息的对象分类方法与设备
- 下一篇:一种用户兴趣确定方法及装置