[发明专利]一种基于随机算法的大数据文本实时交互方法和装置有效

专利信息
申请号: 201710802384.2 申请日: 2017-09-07
公开(公告)号: CN107590125B 公开(公告)日: 2019-12-03
发明(设计)人: 管荑;田大伟;王启龙;李鸿奎;刘春秀;高军;刘勇 申请(专利权)人: 国网山东省电力公司
主分类号: G06F17/27 分类号: G06F17/27;G06F16/31;G06F16/33
代理公司: 11619 北京辰权知识产权代理有限公司 代理人: 郝雅娟<国际申请>=<国际公布>=<进入
地址: 250001 *** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明请求保护一种基于随机算法的大数据文本实时交互方法和装置,采用随机算法,对待处理的大文本数据进行预处理;加载大数据文本的数据源,产生大数据文本实时交互字段选项;基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析。较现有文本大数据分析框架,本发明将数据预处理和数据分析同时进行,在实际应用中能快速响应交互请求,包括更准确的估算数据行(记录)数、快速定位显示交互界面中的数据块。
搜索关键词: 一种 基于 随机 算法 数据 文本 实时 交互 方法 装置
【主权项】:
1.一种基于随机算法的大数据文本实时交互方法,其特征在于包括:/n步骤1:采用随机算法,对待处理的大文本数据进行预处理;/n步骤2:加载大数据文本的数据源,产生大数据文本实时交互字段选项;/n步骤3:基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析;/n所述步骤1中,采用随机算法,对待处理的大文本数据进行预处理包括:/n步骤1.1:基于大数据文本内容首先进行聚类预处理,建立用于文本聚类的标准比对数据文本,完成包括文本分词和去除停用词操作在内的文本预处理操作;/n步骤1.2:根据计算资源的能力,初始化相应线程数N,其中N>1,其中包括一个主线程和N-1个子线程,然后对应地把文本大数据采用随机算法分为N个数据块,其中文本大数据大小为S;/n步骤1.3:第i个子线程从(i-1)*S/N位置开始扫描行坐标,主线程随机选择汇总子线程扫描N行的大小,估算出文本大数据的行数;/n步骤1.4:各子线程将扫描的行坐标保存至索引数据中,主线程根据索引数据再顺序读取数据;/n所述步骤2:加载大数据文本的数据源,产生大数据文本实时交互字段选项包括:/n步骤2.1:选择待加载的大数据文本的数据源,其中,大数据文本的数据源包括本地大数据文本数据源和/或远程云端大数据文本数据源;/n步骤2.2:加载大数据文本的数据源,如果是本地大数据文本数据源,则依据该本地大数据文本数据源的本地存储路径查找读取本地大数据文本数据源;如果是远程云端大数据文本数据源,首先查找该远程云端大数据文本数据源的远程网络服务器,之后建立webservice网络服务,传送该远程云端大数据文本数据源;/n步骤2.3:获取已加载的大数据文本数据源,从中提取数据加载进度、文件大小、文件行数、当前行数及字段数的大数据文本字段项目;/n如果是远程云端大数据文本数据源,首先查找该远程云端大数据文本数据源的远程网络服务器,之后建立webservice网络服务,传送远程云端大数据文本数据源包括:/n步骤2.2.1:传送远程云端大数据文本数据源时,需判断当前运行状态,当运行能耗比超过第一阈值时,中止远程云端大数据文本数据源的远程传送;/n步骤2.2.2:当经过一段时间后,如果运行能耗比不超过第一阈值时,启动数据源断点传送机制;/n步骤2.2.3:响应于用户的远程云端大数据文本数据源的传送请求,识别待获取的远程云端大数据文本数据源的大数据文本标识信息;/n步骤2.2.4:基于获取待获取的远程云端大数据文本数据源的大数据文本标识信息确定待传送的远程云端大数据文本数据源是否为断点再启动数据源,所述断点再启动数据源为包含多个大数据文件数据源块,且其中一部分数据源块已成功上传而且剩余的数据源块未完成上传;/n步骤2.2.5:若所述待传送的远程云端大数据文本数据源不是断点再启动数据源,则将所述待传送的远程云端大数据文本数据源切割成复数个数据源块,并向服务器上传所述待传送的远程云端大数据文本数据源的各所述数据源块;/n所述步骤3:基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析包括:/n步骤3.1:用户对界面中展示的数据加载进度、文件大小、文件行数、当前行数及字段数的大数据文本字段项目进行调整,结合该方法的运行性能,使得调整后的运行能耗比不高于第一阈值;/n步骤3.2:规范大数据文本语义结构,搭建大数据文本查询分析过程中所涉及的查询文本结构的语义规范模型,通过设置多级别规范的语义描述标准获取各文本结构的语义描述程度,语义规范模型包括文本内容规范模型TCRM、文本查询命令规范模型SCRM、文本查询方式规范模型SMRM和文本查询业务流规范模型FWRM;/n步骤3.3:建立命令解析与查询业务流模型,查询过程控制和反馈结果;/n所述步骤1:采用随机算法,对待处理的大文本数据进行预处理之前还包括:/n步骤0:设置数据同步装置,根据可能采取的数据同步方式,设置多种数据同步装置,包括全量更新同步或增量更新同步方式;/n所述步骤3:基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析之后还包括:/n步骤4:用户本地或远程数据源启动数据同步请求,针对待同步的数据,用户本地或远程数据源根据所采用的数据同步方式,查询支持该数据同步方式的数据同步装置,将该待同步的数据发送给查询到的数据同步装置;/n步骤5:在用户对大数据文本内容进行调整并对大数据文本进行语义查询分析后完成本地或远程的数据同步,将本地或远程的数据同步与用户调整并查询后的内容进行同步更新。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司,未经国网山东省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710802384.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top