[发明专利]并行化数据分析方法有效
申请号: | 201811039765.0 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109460449B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 城云科技(中国)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F9/48;G06F40/289;G06F40/30 |
代理公司: | 无锡市汇诚永信专利代理事务所(普通合伙) 32260 | 代理人: | 张欢勇 |
地址: | 310052 浙江省杭州市滨江区长*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 数据 分析 方法 | ||
1.一种并行化数据分析方法,其特征在于,包括:
建立用于文本数据分析的Map/Reduce并行计算环境;
在业务集的每一个节点上启动一个文本挖掘进程;
将各个节点上独立运行的并行进程组织为并行程序;
采用挂载分布式内存缓存的文件系统,将与每个节点上的数据线程共同合作,完成对分布式缓存数据的读取;
基于上述并行计算环境,将语义向量引入文本挖掘和扩展中进行文档数据挖掘;
给定检索语句,使用通用的停用词表对初始检索中的词进行过滤,保留有意义的检索词;
使用语义块模型对词汇进行语义向量表示;
在语义向量的基础之上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的m个词,作为扩展检索词;
使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生成的检索词序列作为扩展检索语句;根据扩展检索词的排列组合得到不同表达形式的扩展检索语句;
将文本向量模型应用于文档摘要检索;
所述将文本向量模型应用于文档摘要检索,进一步包括:
在得到多个文档文本后,将每个文本分解为语句;以标点分隔符,对所有文档中的语句进行切分操作,将所有语句作为一个新的检索库;
对摘要进行检索,第一次检索采用与文档检索中相同的检索扩展检索,使用语义向量扩展词组成的扩展检索语句通过预定义搜索引擎工具对语句进行检索,得到语句的排序结果RankE;第二次检索采用文本表示模型,将检索语句作为目标文本,检索库中的语句作为待比较文本,并分别对所有文本进行语义向量,并计算目标文本与待比较文本之间的相似度,得到相似度的排序结果RankS;
通过线性组合的方式,综合两次排序结果,得到最终的重排序结果:
Rank=α×RankEU+(1-α)×RankSU
其中,RankEU和RankSU分别表示RankE和RankS归一化后的排序得分,α为线性组合参数。
2.根据权利要求1所述的方法,其特征在于,在得到扩展检索词的过程中,采用基于局部语境和全局语境的语义块向量,对文档数据集中所涉及到的所有词语进行训练,并从模型参数中提取出用于表示这些词语的语义向量;
在给定一个检索语句时,经过停用词处理后,得到一个包含关键初始检索词的序列,即:
Q=(q1,q2,…,qt)
其中,qi表示序列中依次出现的词语,并且存在相对应的语义向量;使用余弦相似度将每一个初始检索词的语义向量与词典中其它的语义向量做相似度计算,并将计算结果降序排列,取出相似度最高的m个语义向量对应的词语;将这m个词作为的检索扩展词,即:
Pi={pi1,pi2,…pim}
其中,pim表示根据初始检索词qi的语义所扩展得到的与其语义相近的第m个检索扩展词,集合Pi中的每一个检索扩展词都可以作为初始检索词qi的替换词;即初始检索语句可以通过替换其任何初始检索词来形成新的检索语句,即:
Q0=(t1,t2,…,tt)
其中,ti∈{qi,pi1,pi2,…pim},表示新的检索语句中第i个位置的检索词。
3.根据权利要求1所述的方法,其特征在于,还包括,首先向云端资源管理器申请计算节点,为单个业务分配的所有节点将共同组成业务集。
4.根据权利要求1所述的方法,其特征在于,选择一个进程作为主进程,其余进程作为分进程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811039765.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置