[发明专利]关键词提取方法以及关键词提取装置在审
申请号: | 201710067269.5 | 申请日: | 2017-02-06 |
公开(公告)号: | CN108319627A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 王煦祥;尹庆宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选词 语句 文本 排序算法 分析 权重 关键词提取装置 关键词提取 准确度 无向图 关联度 分词 引力 词语 排序 创建 | ||
本发明提供一种关键词提取方法,其包括:对提取文本的所有分析语句进行分词操作,以得到分析语句的词语单元;确定分析语句中各个候选词与分析语句中其他候选词的依存关联度;确定候选词与提取文本中其他候选词的词引力;计算每个分析语句中的候选词与分析语句中的其他候选词的相关权重;创建每个分析语句的有权无向图;基于文本排序算法,计算有权无向图的每个顶点的顶点得分;根据顶点得分,对于顶点对应的候选词进行排序,进而提取所述候选词中的关键词。本发明还提供一种关键词提取装置,本发明将两个候选词之间的相关权重作为文本排序算法中的权重边,从而提高了文本排序算法的计算准确度,进而提高了关键词的提取准确度。
技术领域
本发明涉及文本处理领域,特别是涉及一种关键词提取方法及关键词提取装置。
背景技术
为了能够有效地处理海量的文本数据,研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究,而这些研究都涉及到一个关键而又基础的问题,即如何获取文本中的关键词。因此,在自然语言处理和信息检索等任务中,关键词提取技术已逐渐成为热点研究问题。现有的研究成果中,关键词提取技术已被广泛应用于新闻服务、查询服务等领域,并被证明能够在信息检索、自动摘要、文本分类等任务中发挥重要作用。与此同时,海量信息处理也对关键词提取技术提出了新的挑战。
关键词是对文本主题信息的精炼,高度概括了文本的主要内容,能帮助用户快速理解文本的主旨,易于使用户判断出文本是否是自己所需的内容,从而提高信息访问和信息搜索的效率。不仅如此,由于关键词精炼、简洁的特点,可以利用关键词以较低的复杂度进行文本相关性的计算,从而高效地进行文本分类、文本聚类和信息检索等处理。在这些应用中,使用最广泛的是信息检索,用户在搜索引擎或问答系统中输入关键词,系统将出现这些关键词的文本或问题答案返回给用户。
在查询问句中,关键词代表了用户问句的主体含义。在问题分析时,提取问题中的关键词对于理解问题的语义至关重要。在信息检索中,需要从用户输入的问句中提取出对检索有用的关键词,关键词的提取的效果直接影响到信息检索的结果和答案的相似度计算与排序。因此,关键词提取是问答系统的基础,如何快速准确地从问句中提取关键词对于提升问答系统的性能至关重要。
尽管现有的关键词提取方法在各类公开数据集上都能取得不错的效果,但存在计算两个词语相关性的时候,忽略了词语之间的句法结构关系的问题,因此现有的关键词提取方法的准确度较低。
发明内容
本发明实施例提供一种具有较高关键词提取准确度的关键词提取方法及关键词提取装置,以解决现有的关键词提取方法及关键词提取装置的关键词提取准确度较低的技术问题。
本发明实施例提供一种关键词提取方法,其包括:
对提取文本的所有分析语句进行分词操作,以得到所述分析语句的词语单元,所述词语单元包括候选词以及停用词;
对分词操作后的分析语句进行依存句法分析,确定所述分析语句中各个候选词与所述分析语句中其他候选词的依存关联度;
根据所述提取文本中的候选词的出现频率、以及所述候选词与所述提取文本中其他候选词的语义相似度,确定所述候选词与所述提取文本中其他候选词的词引力;
根据所述依存关联度以及所述词引力,计算每个分析语句中的候选词与所述分析语句中的其他候选词的相关权重;
基于分析语句中的所有候选词、以及所述分析语句中的候选词与所述分析语句中的其他候选词的相关权重,创建每个分析语句的有权无向图,其中所述有权无向图包括用于表示候选词的顶点以及用于表示候选词之间的相关权重的权重边;
基于文本排序算法,计算所述有权无向图的每个顶点的顶点得分;以及
根据所述顶点得分,对于所述顶点对应的候选词进行排序,进而提取所述候选词中的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710067269.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于名称信息的对象分类方法与设备
- 下一篇:一种用户兴趣确定方法及装置