[发明专利]基于特征空间分解的文本大数据主题挖掘方法和装置有效
申请号: | 201310049504.8 | 申请日: | 2013-02-07 |
公开(公告)号: | CN103116636A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 李文波;孙乐 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于特征空间分解的文本大数据主题挖掘方法和装置。该方法主要包含两个关联的部分:一是基于主题特征的空间分解方法;二是基于多子空间的模型求解并行加速方法。空间分解方法的关键在于利用模型特征对数据样本和主题集合进行解耦合,从而同时实现对数据空间和主题空间的切分和消解,得到了多个相对于全模型空间更小的子模型空间,有效降低了求解算法的存储空间复杂度;同时可以利用子空间之间的相对独立性,将其映射到各种并行实体上,从而有效降低了求解算法的计算时间复杂度。本发明方法能够充分利用计算设备的并行处理能力,实现对大型主题建模空间、大规模数据集合的并行可扩展处理。 | ||
搜索关键词: | 基于 特征 空间 分解 文本 数据 主题 挖掘 方法 装置 | ||
【主权项】:
一种基于特征空间分解的文本大数据主题挖掘方法,其步骤包括:1)将目标文本文档表示成特征向量的形式,形成可供进行主题分析的文档库;2)将主题分析模型的空间从特征方面进行分解,形成若干子空间;3)利用分解得到的子空间进行并行求解,包括:a)将每个子空间相关的模型参数载入对应的并行执行体;b)每个并行执行体从所述文档库中载入与自身包含的子模型相适应的数据子集;c)每个并行执行体计算出相应的子统计量;d)将所有并行执行体的子统计量聚合得到全局统计量,进而估计得到当前主题分析模型;e)返回步骤a)进行迭代,直到主题分析模型收敛;4)根据步骤3)所得的主题分析模型获得特征向量格式的目标文本文档的主题构成信息,实现文本数据的挖掘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310049504.8/,转载请声明来源钻瓜专利网。