[发明专利]一种关键词的抽取方法、装置及电子设备有效
申请号: | 201610683365.8 | 申请日: | 2016-08-17 |
公开(公告)号: | CN107766318B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 贾文杰 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242 |
代理公司: | 北京新知远方知识产权代理事务所(普通合伙) 11397 | 代理人: | 申楠 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 抽取 方法 装置 电子设备 | ||
本发明提供了一种关键词的抽取方法、装置及电子设备,其中方法包括:利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵;根据所述关联关系矩阵调整所述实体词表中各实体词的权重,得到关键词;从所述关键词表中抽取关键词。本发明提高了关键词抽取的准确性,能够较为明确的表明用户兴趣。
技术领域
本发明涉及信息处理技术,特别是涉及一种关键词的抽取方法、装置及电子设备。
背景技术
关键词是能够描述文档主要内容提要的若干个词或者短语,一篇文档的关键词是若干个词或短语,作为对该文档主要内容的提要。关键词是人们快速了解文档内容、把握主题的重要方式。关键词广泛应用于新闻报道、科技论文等领域,以方便人们高效地管理和检索文档。
随着网络与信息技术的飞速发展,互联网为用户提供越来越多的信息和服务,用户在得到便利的同时也不得不面临大量的垃圾信息和无意义数据,即所谓的信息超载问题。此时,关键词可应用于用户兴趣建模,针对用户进行个性化推荐,帮助用户过滤垃圾信息。
目前常见的关键词抽取方法有三种:
方法一,采用TF-IDF算法,选取文档中最具特殊性和代表性的词语集合。其中,TF指词频,即一个词条在单篇文档中出现的次数;DF指文档频率,即一个词条在文档集合中的多少篇文档中出现过;IDF是倒排文档频率,是DF的倒数。TF-IDF算法,即对于单篇文档,计算其中每个词条的TF与IDF之积,作为词条排序的权重,权重最高的K个词条,作为文档的关键词。此方法主要考虑的是词条的特殊性,但具有特殊性的词条有时仅仅是写作者使用的不常见词汇,而与文档的主题无关。
方法二,通过事先准备好的实体词词典,去文档中进行匹配,并根据出现次数进行加权,选取出文档中权重最高的实体词集合。其中实体词主要指命名实体,就是人名、地名、机构名以及其他所有以名称为标识的实体词语。方法二通过事先对实体词进行收集、打分,可以抽取中文档中涉及到的实体词,但是通常要表述一篇文档的主题除了实体词之外,还需要包含一些高频动词和形容词,例如:“奥巴马将先后访问越南和日本任内第十次亚洲行”,除了实体词“奥巴马”“越南”“日本”之外,“访问”也是描述主题必不可少的词汇,而这种方法难以抽取到“访问”这种非实体关键词。
方法三,是基于图的关键词抽取算法,通过构建文档中词条之间的词网络结构,利用词条语义关联进行权重传播,进而得到最为重要的关键词。比较典型的是TextRank算法,这种考虑到了单篇文档内部的词条共现信息和关联信息,但是通常单篇文档内的关键词出现的频次并不高,这种共现关系的覆盖范围较为有限。
发明内容
本发明实施例提出了一种关键词的抽取方法、装置及电子设备,可以解决现有技术关键词抽取不准确的问题。
在一个方面,本发明实施例提供了一种关键词的抽取方法,包括:
利用预先构建的实体词典,在待抽取关键词的文档中进行匹配,得到实体词表;
利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵;
根据所述关联关系矩阵调整所述实体词表中各实体词的权重,得到关键词表;以及
从所述关键词表中抽取关键词。
可选地,在所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵之前,还包括:
从与所述待抽取关键词的文档不同的其它文档中挖掘各词条的关联,得到所述其它文档词条间的关联权重;
所述利用所述待抽取关键词的文档中各词条之间的共现关系,构建所述待抽取关键词的文档中各词条之间的关联关系矩阵的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610683365.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生成分词结果的方法及装置
- 下一篇:序列转换方法及装置