[发明专利]获取关键词的方法及装置有效
| 申请号: | 201510666887.2 | 申请日: | 2015-10-14 | 
| 公开(公告)号: | CN105302882B | 公开(公告)日: | 2018-09-14 | 
| 发明(设计)人: | 赵大哲;栗伟;周庆华;王军搏;任福龙;耿欢 | 申请(专利权)人: | 东软集团股份有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 南毅宁;桑传标 | 
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 获取 关键词 方法 装置 | ||
本发明公开了一种获取关键词的方法及装置。该方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词。由此,能够从文本信息中准确提取出关键词。
技术领域
本发明涉及文本处理领域,具体地,涉及一种获取关键词的方法及装置。
背景技术
关键词提取是依靠计算机从文本信息中选择出反映主题内容的词,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。关键词可以为文本信息提供一个简短的概括,使读者能够在短时间内了解文本信息的大概内容。此外,关键词还是信息检索系统中对文本信息进行索引、聚类等操作的基础。因此,如何准确地从文本信息中提取出关键词十分重要。
发明内容
本发明的目的是提供一种能够从文本信息中准确提取关键词的获取关键词的方法及装置。
为了实现上述目的,根据本发明的第一方面,提供了一种获取关键词的方法,所述方法包括:对文本信息进行分词处理,得到多个分词;构建所述多个分词的词共现图,其中,每个分词作为所述词共现图的一个顶点,并且两个顶点之间的边线的权重为所述两个顶点所对应的分词在所述文本信息中的共现次数;根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者;根据所确定出的所述每个分词的网络最短距离变化参数、网络聚集系数变化参数、中间性参数中的至少一者、以及预设的各参数的权重系数,分别确定所述每个分词的重要性;以及按照重要性从高到低的顺序,获取预定数量的分词作为关键词。
在本发明的第一方面的一些可能的实施方式中,所述方法还包括:在根据所述词共现图,确定每个分词的网络最短距离变化参数、网络聚集系数变化参数以及中间性参数中的至少一者之前,确定所述多个分词中的任意两个分词之间的第一相似性;在所述任意两个分词之间的第一相似性满足预设的相似性条件的情况下,更新所述词共现图。
在本发明的第一方面的一些可能的实施方式中,所述第一相似性为所述任意两个分词的向量之间的欧式距离;所述预设的相似性条件包括:所述任意两个分词的向量之间的欧式距离小于或等于预设的距离阈值;以及所述对文本信息进行分词处理,得到多个分词包括:对文本信息进行分词处理,得到多个分词和每个分词的向量。
在本发明的第一方面的一些可能的实施方式中,所述更新所述词共现图包括:判断所述词共现图中,所述任意两个分词所对应的顶点之间是否存在边线;在所述任意两个分词所对应的顶点之间存在边线的情况下,增加所述任意两个分词所对应的顶点之间的边线的权重;在所述任意两个分词所对应的顶点之间不存在边线的情况下,在所述任意两个分词所对应的顶点之间增加一边线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510666887.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据缓存同步方法、服务器和客户端
- 下一篇:内容关联推荐方法及装置





