[发明专利]一种高效的关联主题模型数据处理方法及其系统有效
| 申请号: | 200810057989.4 | 申请日: | 2008-02-22 |
| 公开(公告)号: | CN101226557A | 公开(公告)日: | 2008-07-23 |
| 发明(设计)人: | 李文波;孙乐 | 申请(专利权)人: | 中国科学院软件研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京君尚知识产权代理事务所 | 代理人: | 余长江 |
| 地址: | 100190北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 高效 关联 主题 模型 数据处理 方法 及其 系统 | ||
1.一种高效的关联主题模型数据处理方法,其步骤为:
初始化阶段:
1)在每个节点计算机上根据该节点的硬件并发能力自动生成具有相应数量工作线程的计算服务;
2)主控节点给出初始模型并将其复制到所有的计算节点上;
3)主控节点将任务文档全集划分成若干计算节点文档子集,并分配给相应计算节点;迭代阶段:
1)各计算节点对接收到的节点文档子集进行数据处理,得到该节点文档子集中每篇文档的主题分布和该节点文档子集的模型统计量;
2)各计算节点将数据结果返回给主控节点进行汇总,得到任务文档全集的主题分布;
3)主控节点根据模型统计量的汇总,迭代本次模型并判断其收敛性:如未收敛则重复迭代阶段,否则结束数据处理。
2.如权利要求1所述的方法,其特征在于所述节点计算机硬件并发能力的获得方法为:
1)在windows平台上利用汇编指令直接获得硬件系统的处理器信息,在linux平台上通过对硬件抽象层HAL的功能调用获得硬件系统的处理器信息:首先获取每个节点计算机的处理器的数量,然后获取每个处理器所含的内核数量;
2)合计节点计算机的所有处理器的包含的内核数量,自动确定该计算节点支持的有效线程的数量。
3.如权利要求1所述的方法,其特征在于主控节点判断所述计算节点文档子集划分的均衡性,其方法为:
1)将所有计算节点的计算时间组成一个列表Time;
2)找出最长的节点计算时间Max(Time)和最短的节点计算时间Min(Time),并计算时间差TimeSpan=Max(Time)-Min(Time);
3)将TimeSpan和预定的阈值Threshold进行比较,如果TimeSpan>Threshold,则需要调整节点文档子集划分,否则保留先前的划分。
4.如权利要求3所述的方法,其特征在于所述调整计算节点文档子集划分的方法为:
1)每个计算节点对接收到的节点文档子集进行数据数据处理时记录该节点处理文档子集的所用的时间;
2)每个计算节点将该节点处理文档子集的所用的时间传送回主控节点;
3)主控节点用文档计算时间计算各个节点的文档处理速度;
4)主控节点根据各个节点文档处理速度计算每个节点的文档分配份额;
5)主控节点依据各个节点文档分配份额从全集中依次取出相应数量的文档进行分配。
5.如权利要求4所述的方法,其特征在于所述计算节点进行数据处理的方法为:
1)每个计算节点获取自身的处理器的数量和每个处理器所含的内核数量,进而就得到该节点支持的有效线程数量;
2)计算节点根据自身的有效线程数量将接收的文档子集等分为若干工作块;
3)计算节点中各个工作线程利用索引结构主动申请获得工作块来进行数据处理。
6.如权利要求5所述的方法,其特征在于所述利用索引结构获得工作块的方法为:
1)设置所述节点文档子集划分后的工作块尺寸;
2)设置一个索引数组的顶端指针,并为之设置一个锁;
3)所有线程在锁的保护下互斥访问索引数组的顶端指针,获得本线程所处理的文档的地址;
4)线程通过工作块的地址访问相应的文档并进行处理。
7.一种高效的关联主题模型数据处理系统,该系统包括主控节点和若干个计算节点
所述主控节点用于负责界面交互、数据分发、结果汇总、模型估计;
所述计算节点用于承担求解任务的主要计算工作负荷;
所述主控节点和所述计算节点建立通信连接进行数据传输。
8.如权利要求7所述的系统,其特征在于所述主控节点和计算节点为具有单核处理器、多核处理器或多处理器的硬件平台。
9.如权利要求7所述的系统,其特征在于所述主控节点和计算节点通过网络进行数据传输,所述数据的数值格式采用文本表示格式。
10.如权利要求7所述的系统,其特征在于计算和传输分离,即所述计算节点进行数据处理时不考虑数据的远程访问而是采用本地读写的模式,所述计算节点和主控节点的数据传输任务由基于进程外的文件传输服务(FTP)或集群系统提供的网络文件系统服务(NFS)承担。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810057989.4/1.html,转载请声明来源钻瓜专利网。





