[发明专利]一种基于概念向量模型的多主题提取方法在审
申请号: | 201410178231.1 | 申请日: | 2014-04-29 |
公开(公告)号: | CN104008090A | 公开(公告)日: | 2014-08-27 |
发明(设计)人: | 马甲林;王志坚 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概念 向量 模型 主题 提取 方法 | ||
技术领域
本发明涉及文本信息提取技术领域,特别是涉及一种基于概念向量模型的多主题提取方法。
背景技术
自人类社会进入信息时代以来,各种电子文本大量涌现,这些海量文本中存在着大量多主题文本,包含着多方面丰富的主题信息,例如:一篇关于李克强总理访问欧洲的报道,既属于政治类新闻,又属于经济类新闻。随着科学技术的发展,学科之间融合度越来越高,大多数研究都跨越多个学科领域,许多科技文本内容都从不同侧面包含了多个主题,如一篇关于生物基因信息挖掘的文本,既包含计算机科学方面的主题又包含生物医学领域主题。因此,现实世界中存在大量多主题文本,如何从这些文本中提取有价值的反映不同方面的多个子主题信息,在信息检索、图书情报和信息安全等领域有着非常广泛的应用。
国外对文本主题提取研究起于上世纪50年代,目前比较成熟的主题提取方法是基于统计模型的方法,该方法主要是利用词频统计信息提取主题,后来研究人员加入了对标题、位置、句法结构和线索词等要素的考虑,能够从英文文本中提取高质量的主题。国内对主题提取的研究起于上世纪80年代后期,然而,由于汉语言的复杂性,许多成功的英文主题提取方法不适用于中文。
目前,国内应用广泛的还是基于统计的方法,该方法在向量空间模型(VSM)下,前提假设是向量之间两两正交,即构成文本的词汇之间毫无联系,这显然与文本中词汇语义与上下文相关的现实不符,又由于中文词汇量很大,在VSM下,必然存在向量高维、稀疏、忽略词汇语义及上下文背景等问题,同时提取过程受到同义词和多义词的干扰,因而在质量和效率上表现欠佳。目前关于主题提取的研究热点集中在如何增加语义信息上,虽然有很多学者提出了各种基于语义的主题提取方法,但仍然没有达到应用级别的突破性进展。另外,提取多主题和单主题提取在算法上有很大差别,从一篇文本中识别多个子主题词,仅使用传统基于词频统计的方法无法实现。廖涛等人提出的复杂网络中的社区划分算法能够提取多主题,但未涉及词的语义信息,是一个纯粹的统计方法,提取的多主题质量不高。
因此,针对现有的以词频统计为依据的传统文本处理技术,一篇文本只能提出单个主题的问题,同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题,需要提供一种基于概念向量模型的多主题提取方法。
发明内容
本发明要解决的技术问题是,为了解决传统文本处理技术以词频统计为依据,一篇文本只能提出单个主题的问题,同时考虑了传统文本处理方法面对向量高维、稀疏以及缺乏词义信息、上下文信息所导致的算法效率低和提取主题词质量不高的问题,提供了一种基于概念向量模型的多主题提取方法,该方法利用《知网》语义知识库,对表示文本的特征词进行一一映射,把该文本表示成概念模型,并且在映射过程中同义词自动归并到了同一概念中,实现了向量降维;根据语义类与上下文语境的相关性对文中出现的多义词进行排歧。
本发明的目的在于提供一种基于概念向量模型的多主题提取方法,包括以下步骤:
Step1:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量;
Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型;
Step3:多主题词提取:使用改进的K-means算法对所述经过归并和排歧后的文本概念空间模型中的概念进行聚类,形成多个主题概念簇,根据形成的多个主题概念簇,利用概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。
进一步地,所述步骤Step1可以包括如下步骤:
Step1-1:使用分词系统对待处理文本T进行分词,接着,进行去停、去噪,之后,得到所述文本的初级向量空间模型T={C1,C2,…,Cn},其中C1,C2,…,Cn表示n个由特征词组成的向量,所述去停是指过滤文本中出现的停用词,所述去噪是指过滤文本中出现的无实际意义的词汇;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410178231.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音信箱的实现方法、装置及智能外设
- 下一篇:一种带有过滤棒的过滤器