[发明专利]一种高效的关联主题模型数据处理方法及其系统有效
| 申请号: | 200810057989.4 | 申请日: | 2008-02-22 |
| 公开(公告)号: | CN101226557A | 公开(公告)日: | 2008-07-23 |
| 发明(设计)人: | 李文波;孙乐 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余长江 |
| 地址: | 100190北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 高效 关联 主题 模型 数据处理 方法 及其 系统 | ||
技术领域
本发明涉及一种文本表示方法及其系统,尤其涉及一种基于隐含主题文本表示的高效数据处理方法及其系统,属于计算机信息检索领域。
背景技术
计算机信息检索是信息社会的重要基础设施之一,所提供的服务贯穿了从基本的网络信息搜索到信息的过滤、分类以致各种高级的数据挖掘。在计算机信息检索中,文本的表示方法是一个具有根本重要性的问题:首先,计算机信息检索的处理对象主要是文本信息,其他类型的信息一般也必须依赖于文本信息或附加文本信息而存在;再者,文本表示方法是计算机信息检索服务的先决条件,因为计算机信息检索的基本手段是利用自然语言文本向搜索引擎进行提问和应答,必须首先要将文本从无结构的原始形式转化为计算机能够理解的结构化形式,然后才能进行分析与处理;还有,文本表示方法是和计算机信息检索中的处理算法紧密关联在一起的,所以文本表示方法很大程度上决定了处理算法的设计。
常见的文本表示方法主要分为向量空间方法(Vector Space Model)(参考:Salton,G.The SMART Retrieval System.Englewood Cliffs,Prentice-Hall,1971.)、概率方法(ProbabilityModel)(参考:Van Rijsbergen,C.J.A new theoretical framework for information retrieval.Inproceedings of SIGIR’86,pp.194-200,1986.)和语言模型方法(Language Model)(参考:J.Ponte,Crpft,W.B.A Language Modeling Approach to Informational.In proceedings ofSIGIR’98,pp.257-281,1998.)三类。关联主题模型(Correlated Topic Model)是一种基于隐含主题的概率文本表示方法(参考:Blei,D.Lafferty,J.Correlated Topic Models[J].Advances in neural information processing systems,2006,18:147-154.),另外由于其输出可以方便地嵌入到向量空间和语言模型中,因而对于计算机信息检索中的分析、处理算法具有广泛的适应性。该方法的主要功能是通过对一定数量的文本利用统计手段进行分析后,不但能挖掘出该文本集合论述的若干主题以及各个主题在每篇文本中的分布,而且非常重要的是该方法还可以度量这些主题之间的关联程度。这样,就使文本信息处理摆脱了以往完全依赖于词汇的低级处理方式,可以在主题这个更高的层次上进行。
虽然关联主题模型从功能上提供了一种高层次文本表示的理想手段,但是目前还主要限于小量数据上,难以在现实环境下的大规模数据上使用,根本原因在于其求解方法存在严重的瓶颈:首先,其经典的实现是基于常规的串行计算方法,也就是计算任务的每一步必须前后相继地顺序地进行,前一步处理的结果是后一步处理的开始。这样在任一时间点上,全部的计算任务只能在一个硬件计算单元上执行,所以即便是将其放到具有多个硬件计算单元(如多核、多处理器)的高性能计算机上,也不能加快任务求解的速度。再者,由于串行方式下计算过程自身不可拆分,所以被处理的数据也就必须集中在一起供给计算过程随时访问,这样就加大了系统的存储负荷,如硬盘、内存,特别是内存方面的影响非常明显,过大的内存占用会导致计算速度急剧下降甚至导致系统拒绝计算任务的执行。
发明内容
本发明的目的在于提供一种高效的关联主题模型数据处理方法及其系统,该方法能够充分利用单机上的多处理器-多核并行架构和计算机集群的大规模并行能力,进而实现对太规模文档集合的高速处理,也即达到将关联主题模型文本表示方法推向实用化的目的。
本发明的技术方案如下:
1.任务初始化
1.1.在每个节点计算机上(包括主控节点和计算节点),根据该节点的硬件并发能力自动生成具有相应数量工作线程的计算服务;
1.2.在主控节点上,利用随机过程给出初始模型M0,并将M0复制到所有的计算节点上;
1.3.在主控节点上,将任务文档全集等量划分成若干计算节点文档子集,并逐一分配到相应的计算节点上;
2.任务的执行(记本轮迭代次数为第i次迭代,再用k表示计算节点的编号)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810057989.4/2.html,转载请声明来源钻瓜专利网。





