[发明专利]并行化数据分析方法有效

专利信息
申请号: 201811039765.0 申请日: 2018-09-06
公开(公告)号: CN109460449B 公开(公告)日: 2020-05-12
发明(设计)人: 不公告发明人 申请(专利权)人: 城云科技(中国)有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/35;G06F9/48;G06F40/289;G06F40/30
代理公司: 无锡市汇诚永信专利代理事务所(普通合伙) 32260 代理人: 张欢勇
地址: 310052 浙江省杭州市滨江区长*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 并行 数据 分析 方法
【权利要求书】:

1.一种并行化数据分析方法,其特征在于,包括:

建立用于文本数据分析的Map/Reduce并行计算环境;

在业务集的每一个节点上启动一个文本挖掘进程;

将各个节点上独立运行的并行进程组织为并行程序;

采用挂载分布式内存缓存的文件系统,将与每个节点上的数据线程共同合作,完成对分布式缓存数据的读取;

基于上述并行计算环境,将语义向量引入文本挖掘和扩展中进行文档数据挖掘;

给定检索语句,使用通用的停用词表对初始检索中的词进行过滤,保留有意义的检索词;

使用语义块模型对词汇进行语义向量表示;

在语义向量的基础之上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的m个词,作为扩展检索词;

使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生成的检索词序列作为扩展检索语句;根据扩展检索词的排列组合得到不同表达形式的扩展检索语句;

将文本向量模型应用于文档摘要检索;

所述将文本向量模型应用于文档摘要检索,进一步包括:

在得到多个文档文本后,将每个文本分解为语句;以标点分隔符,对所有文档中的语句进行切分操作,将所有语句作为一个新的检索库;

对摘要进行检索,第一次检索采用与文档检索中相同的检索扩展检索,使用语义向量扩展词组成的扩展检索语句通过预定义搜索引擎工具对语句进行检索,得到语句的排序结果RankE;第二次检索采用文本表示模型,将检索语句作为目标文本,检索库中的语句作为待比较文本,并分别对所有文本进行语义向量,并计算目标文本与待比较文本之间的相似度,得到相似度的排序结果RankS

通过线性组合的方式,综合两次排序结果,得到最终的重排序结果:

Rank=α×RankEU+(1-α)×RankSU

其中,RankEU和RankSU分别表示RankE和RankS归一化后的排序得分,α为线性组合参数。

2.根据权利要求1所述的方法,其特征在于,在得到扩展检索词的过程中,采用基于局部语境和全局语境的语义块向量,对文档数据集中所涉及到的所有词语进行训练,并从模型参数中提取出用于表示这些词语的语义向量;

在给定一个检索语句时,经过停用词处理后,得到一个包含关键初始检索词的序列,即:

Q=(q1,q2,…,qt)

其中,qi表示序列中依次出现的词语,并且存在相对应的语义向量;使用余弦相似度将每一个初始检索词的语义向量与词典中其它的语义向量做相似度计算,并将计算结果降序排列,取出相似度最高的m个语义向量对应的词语;将这m个词作为的检索扩展词,即:

Pi={pi1,pi2,…pim}

其中,pim表示根据初始检索词qi的语义所扩展得到的与其语义相近的第m个检索扩展词,集合Pi中的每一个检索扩展词都可以作为初始检索词qi的替换词;即初始检索语句可以通过替换其任何初始检索词来形成新的检索语句,即:

Q0=(t1,t2,…,tt)

其中,ti∈{qi,pi1,pi2,…pim},表示新的检索语句中第i个位置的检索词。

3.根据权利要求1所述的方法,其特征在于,还包括,首先向云端资源管理器申请计算节点,为单个业务分配的所有节点将共同组成业务集。

4.根据权利要求1所述的方法,其特征在于,选择一个进程作为主进程,其余进程作为分进程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于城云科技(中国)有限公司,未经城云科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811039765.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top