[发明专利]一种关键词提取方法及装置在审

申请号：	201911244974.3	申请日：	2019-12-06
公开（公告）号：	CN112926310A	公开（公告）日：	2021-06-08
发明（设计）人：	明亮	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06F40/284	分类号：	G06F40/284
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	柳欣
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种关键词提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种关键词提取方法及装置，该方法包括：首先，对待处理文本进行分词，得到分词集合，并基于该分词集合以及分词在待处理文本中预设长度的窗口内存在的共现关系建立分词词图；其次，计算分词词图中节点之间的边两端对应的分词的相似度，作为边的权重值；然后，将边的权重值作为TextRank算法中的点间权重，计算得到的分词的特征值，并将特征值满足第一预设条件的分词确定为候选关键词；最后，计算每个候选关键词与待处理文本的相关度，并将与待处理文本的相关度最大的候选关键词确定为待处理文本的关键词。如此能够有效地利用待处理文本内部词语间的结构关系以及语义信息进行关键词提取，从而能够有效地提高关键词的提取准确性。

技术领域

本申请涉及互联网技术领域，具体涉及一种关键词提取方法及装置。

背景技术

随着互联网的高速发展，文本数据的数据量在急速增长，此时，为了能够更好地从这些大量的文本数据中获取到有用信息(例如，从某购物网站商品标题中获取到用户需求)，可以先从文本数据中进行关键词提取，再基于这些提取的关键词来对这些文本数据进行有用信息的提取。然而，如何准确提取文本中的关键词仍是一个亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例提供一种关键词提取方法及装置，能够有效地提高关键词的提取准确性。

为解决上述问题，本申请实施例提供的技术方案如下：

一种关键词提取方法，所述方法包括：

对待处理文本进行分词，得到分词集合；

建立分词词图，所述分词词图中的节点为所述分词集合中的分词，所述分词词图中节点之间的边表征：在该边两端对应的分词满足在所述待处理文本中预设长度的窗口内存在共现关系；

计算所述分词词图中节点之间的边两端对应的分词的相似度，将所述相似度确定为边的权重值；

将所述边的权重值作为TextRank算法中的点间权重，计算得到的所述分词的特征值，将所述特征值满足第一预设条件的分词确定为候选关键词；

计算每个所述候选关键词与所述待处理文本的相关度；

将与所述待处理文本的相关度最大的候选关键词确定为所述待处理文本的关键词。

在一种可能的实现方式中，所述方法还包括：

利用Word2vec模型计算所述分词集合中分词的词向量。