[发明专利]一种基于概念向量模型的多主题提取方法在审
申请号: | 201410178231.1 | 申请日: | 2014-04-29 |
公开(公告)号: | CN104008090A | 公开(公告)日: | 2014-08-27 |
发明(设计)人: | 马甲林;王志坚 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 朱小兵 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 概念 向量 模型 主题 提取 方法 | ||
1.一种基于概念向量模型的多主题提取方法,其特征在于,包括以下步骤:
Step1:向量模型表示:对文本进行预处理,以得到由特征词组成的向量,并通过向量空间模型将所述预处理后的文本表示成特征词组成的向量;
Step2:概念模型映射:基于以概念来表达自然语言词汇语义且以树形结构来表示概念间语义关系的语义知识库,利用词义与所述概念之间的对应关系对所述预处理后的组成文本的特征词进行概念映射,在概念映射过程中,文本中的同义词自动进行归并,接着,根据语义类与上下文语境的相关性对文中出现的多义词进行排歧,之后,将所述经过归并和排歧后的文本的向量空间模型映射成概念空间模型;
Step3:多主题词提取:使用改进的K-means算法对所述经过归并和排歧后的文本概念空间模型中的概念进行聚类,形成多个主题概念簇,根据形成的多个主题概念簇,利用概念和原文本特征词对应关系,逆向得到多个主题特征词集,以提取单个中文文本中的多主题词。
2.根据权利要求1所述的基于概念向量模型的多主题提取方法,其特征在于,所述步骤Step1进一步包括如下步骤:
Step1-1:使用分词系统对待处理文本T进行分词,接着,进行去停、去噪,之后,得到所述文本的初级向量空间模型T={C1,C2,…,Cn},其中C1,C2,…,Cn表示n个由特征词组成的向量,所述去停是指过滤文本中出现的停用词,所述去噪是指过滤文本中出现的无实际意义的词汇;
Step1-2:从初级向量空间模型中进一步提取特征向量,以得到该文本的高级向量空间模型T={C1,C2,…,Cm},其中m<=n。
3.根据权利要求1所述的基于概念向量模型的多主题提取方法,其特征在于,所述步骤Step2进一步包括如下步骤:
Step2-1:对待处理文本T中所有特征词依次查询语义知识库,进行概念映射;
Step2-1-1:查询知识库,若T的特征词Cm对应唯一的概念,则Cm为单义词或同义词,直接获取Cm的概念,转至步骤Setp2-2;
Step2-1-2:查询知识库,若T的特征词Cm对应多个概念,则特征词Cm为多义词,则需对多义词Cm进行词义排歧,选择出适合该文上下文语境的概念;
Step2-2:得到文本T对应概念向量T={(G1,C1),(G2,C2),…(Gq,Cq)};
Step2-3:进一步按照概念进行整理输出文本T对应概念向量T={(G1,(C1,...,Ci)),(G2,(C2,...,Cj)),…,(Gq,(Cq,...,Ck))},其中(Cq,...,Ck)为概念G q在文中对应出现的词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410178231.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音信箱的实现方法、装置及智能外设
- 下一篇:一种带有过滤棒的过滤器