[发明专利]基于词聚类的低频关键词识别方法有效
申请号: | 201711228193.6 | 申请日: | 2017-11-29 |
公开(公告)号: | CN108038099B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 陈艳平;刘莎;黄瑞章 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 贵阳中新专利商标事务所 52100 | 代理人: | 李亮;程新敏 |
地址: | 550025 贵州省贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词聚类 低频 关键词 识别 方法 | ||
本发明公开了一种基于词聚类的低频关键词识别方法。本发明提出了3个创新点:(1)提出一种区别于传统方法的低频关键词词识别方法,该方法利用关键词的语义结构信息进行识别,能有效缓解低频关键词识别中上下文特征稀疏的问题。(2)提出一种基于词聚类的关键词语义结构生成方法,该方法利用词聚类后的词类标签替换候选关键词,然后选择出现次数多的标签模式作为语义结构。(3)针对相同语义结构下的低频关键词,提出一种面向低频关键词的排序方法,该方法利用文档信息对低频词进行排序。因此,本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
技术领域
本发明涉及计算机应用技术领域,尤其是一种自然语言处理、数据挖掘方法。
背景技术
目前关键词的识别技术主要有三种方法。第一种方法基于词之间的互信息,利用单词在文本中出现的相对概率来进行识别。经常共现的词具有较高的内聚性,因为使用上的习惯,容易形成关键词。第二种方法通过抽取候选关键词周围的特征,利用机器学习的方法来进行判断。第三种方法利用语法解析工具,通过关键词在句子中担任的语法角色来进行识别。前两种方法需要候选关键词有较高的出现频率,从而提供更多的文本上下文信息,增加识别的性能。第三种方式可以识别一些出现频率较低的关键词,但其性能受制于现有句法解析工具的性能,实用性差。在这一领域,低频关键词相关领域的研究和应用中往往被忽略。其难点主要有三个方面。首先,低频关键词的各个部分之间的内聚性弱,无法计算它们之间的互信息。其次,由于低频关键词之间的组合从概率的角度评价具有随机性,难以采用标注的方式来使用机器学习的方法。最后,低频关键词也存在表示方面的问题,由于出现次数少,缺少上下文信息,难以通过现有表示方法(如:Word2Vector)来对其进行表示。所以,目前仍没有相关方面的研究和应用。
目前,为了解决以上技术问题,产生了许多相应的方法。专利《一种关键词抽取方法》公开了一种关键词抽取方法,该方法包括:对文本进行预处理;基于预处理后的文本,统计词频和词对的共现信息;将词频大于或等于门限值的词作为候选关键词;根据词对的共现信息,计算各候选关键词对文本的重要性;根据计算结果,对候选关键词进行排序,将前N个候选关键词作为文本的关键词,其中,N大于等于1。该方法能够实现独立于任何领域,不受文本篇幅长短影响的关键词抽取。专利《关键词的抽取方法及装置》中提出了一种关键词的抽取方法及装置。该方法包括:获取待处理文本,其中,待处理文本包括多个待处理语句;对待处理文本执行候选关键词抽取,得到候选关键词;分别获取候选关键词在多个待处理语句中的位置信息;以及根据候选关键词在多个待处理语句中的位置信息,对多个待处理语句执行目标关键词抽取,得到目标关键词。该专利解决了现有技术中关键词抽取方法的抽取结果存在不一致的技术问题。而《基于Word2Vec和Query log抽取关键词方法》中公开了一种基于Word2Vec和Query log抽取关键词方法。该方法可针对特定领域文本迅速高效地提取出质量较为理想的关键词,避免引入口语化词汇且提取出的关键词质量高。此外,《一种基于图的关键词抽取方法》中提出了一种基于图的关键词抽取方法,该方法包括以下步骤:对文本信息进行预处理,预处理包括分词处理、词性标注处理和命名实体识别处理;计算节点特征,以及计算词汇的统计关系和词汇的语义关系;根据节点特征计算节点权重,以及根据词汇的统计关系和词汇的语义关系计算边权重;根据节点权重和边权重计算候选词的分值;根据候选词的分值排序结果以及文本大小信息确定该文本的关键词。它提出的一种基于图的关键词抽取方法,不需要标注语料,而且可以通过对TextRank算法基于候选词特征增加节点权重、基于词汇语义关系改进边权重,可以以较低成本提高关键词抽取的准确率。还有,专利《在文本中抽取关键词的装置和方法》公开了一种在文本中抽取关键词的装置和方法。所述方法包括:对文本进行预处理,包括根据标点符号将原始文本切分为段的集合;统计预处理后的文本的词语频率和基于段的词对的共现次数;根据统计结果,选择词语频率大于或等于2的词语构成候选关键词的集合;结合词对的共现次数和词对间规范化点互信息来对候选关键词进行评分;根据评分结果从高到低对候选关键词进行排序,返回排序在前的预定数量的候选关键词作为文本的关键词。专利《基于主题模型的文档关键词抽取方法及其系统》公开了一种基于主题模型的文档关键词抽取方法及其系统,其中文档关键词抽取方法包括下列步骤:文档信息预处理、文档结构图构建、文档主题分布提取、单词权重提取、关键词生成;其中文档关键词抽取系统包括下列模块:文档信息预处理模块、文档结构图构建模块、文档主题分布提取模块、单词权重提取模块、关键词生成模块。本发明可以使得提取出来的关键词更加合理、与文档的主题更加密切;具有解决了目前关键词提取领域的部分不足之处,使文档总结达到更好的效果,方便用户迅速了解文档的概要。专利《一种基于关键词匹配的正文抽取方法》公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重,并通过对节点子女最大关键词权重的判断,有效甄别并定位包含正文文本的正文节点,完成正文抽取;针对关键词匹配方法不能有效抽取的短文本问题,提出相似度匹配方法,其将段落文本和页面标题转换成8位二进制数据,通过海明距离判断相似性实现短文本的正文抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711228193.6/2.html,转载请声明来源钻瓜专利网。