[发明专利]一种基于概念向量模型的多主题提取方法在审
申请号: | 201410178231.1 | 申请日: | 2014-04-29 |
公开(公告)号: | CN104008090A | 公开(公告)日: | 2014-08-27 |
发明(设计)人: | 马甲林;王志坚 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于概念向量模型的多主题提取方法,包含以下步骤:首先使用传统方法对文档进行预处理后初步得到由特征词组成的向量;其次利用《知网》词义与概念间的对应关系对同义词进行归并,根据语义类与上下文语境的相关性对多义词进行排歧,构造概念向量模型表示该文档;再利用《知网》中概念的相关语义信息计算概念相似度,通过“预设种子”的方法改进K-means算法对概念进行聚类,形成多个主题概念簇;最后根据概念和词的对应关系,得到多个子主题词集。该方法考虑了语义信息,克服K-means算法对初始中心的敏感性和时空开销不稳定等缺陷,提高了提取主题的质量。 | ||
搜索关键词: | 一种 基于 概念 向量 模型 主题 提取 方法 | ||
【主权项】:
一种基于概念向量模型的多主题提取方法,其特征在于,包括以下步骤: Step1:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量; Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型; Step3:多主题词提取:使用改进的K‑means算法对所述经过归并和排歧后的文本概念空间模型中的概念进行聚类,形成多个主题概念簇,根据形成的多个主题概念簇,利用概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410178231.1/,转载请声明来源钻瓜专利网。
- 上一篇:语音信箱的实现方法、装置及智能外设
- 下一篇:一种带有过滤棒的过滤器