[发明专利]一种基于随机算法的大数据文本实时交互方法和装置有效
申请号: | 201710802384.2 | 申请日: | 2017-09-07 |
公开(公告)号: | CN107590125B | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 管荑;田大伟;王启龙;李鸿奎;刘春秀;高军;刘勇 | 申请(专利权)人: | 国网山东省电力公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/31;G06F16/33 |
代理公司: | 11619 北京辰权知识产权代理有限公司 | 代理人: | 郝雅娟<国际申请>=<国际公布>=<进入 |
地址: | 250001 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于随机算法的大数据文本实时交互方法和装置,采用随机算法,对待处理的大文本数据进行预处理;加载大数据文本的数据源,产生大数据文本实时交互字段选项;基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析。较现有文本大数据分析框架,本发明将数据预处理和数据分析同时进行,在实际应用中能快速响应交互请求,包括更准确的估算数据行(记录)数、快速定位显示交互界面中的数据块。 | ||
搜索关键词: | 一种 基于 随机 算法 数据 文本 实时 交互 方法 装置 | ||
【主权项】:
1.一种基于随机算法的大数据文本实时交互方法,其特征在于包括:/n步骤1:采用随机算法,对待处理的大文本数据进行预处理;/n步骤2:加载大数据文本的数据源,产生大数据文本实时交互字段选项;/n步骤3:基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析;/n所述步骤1中,采用随机算法,对待处理的大文本数据进行预处理包括:/n步骤1.1:基于大数据文本内容首先进行聚类预处理,建立用于文本聚类的标准比对数据文本,完成包括文本分词和去除停用词操作在内的文本预处理操作;/n步骤1.2:根据计算资源的能力,初始化相应线程数N,其中N>1,其中包括一个主线程和N-1个子线程,然后对应地把文本大数据采用随机算法分为N个数据块,其中文本大数据大小为S;/n步骤1.3:第i个子线程从(i-1)*S/N位置开始扫描行坐标,主线程随机选择汇总子线程扫描N行的大小,估算出文本大数据的行数;/n步骤1.4:各子线程将扫描的行坐标保存至索引数据中,主线程根据索引数据再顺序读取数据;/n所述步骤2:加载大数据文本的数据源,产生大数据文本实时交互字段选项包括:/n步骤2.1:选择待加载的大数据文本的数据源,其中,大数据文本的数据源包括本地大数据文本数据源和/或远程云端大数据文本数据源;/n步骤2.2:加载大数据文本的数据源,如果是本地大数据文本数据源,则依据该本地大数据文本数据源的本地存储路径查找读取本地大数据文本数据源;如果是远程云端大数据文本数据源,首先查找该远程云端大数据文本数据源的远程网络服务器,之后建立webservice网络服务,传送该远程云端大数据文本数据源;/n步骤2.3:获取已加载的大数据文本数据源,从中提取数据加载进度、文件大小、文件行数、当前行数及字段数的大数据文本字段项目;/n如果是远程云端大数据文本数据源,首先查找该远程云端大数据文本数据源的远程网络服务器,之后建立webservice网络服务,传送远程云端大数据文本数据源包括:/n步骤2.2.1:传送远程云端大数据文本数据源时,需判断当前运行状态,当运行能耗比超过第一阈值时,中止远程云端大数据文本数据源的远程传送;/n步骤2.2.2:当经过一段时间后,如果运行能耗比不超过第一阈值时,启动数据源断点传送机制;/n步骤2.2.3:响应于用户的远程云端大数据文本数据源的传送请求,识别待获取的远程云端大数据文本数据源的大数据文本标识信息;/n步骤2.2.4:基于获取待获取的远程云端大数据文本数据源的大数据文本标识信息确定待传送的远程云端大数据文本数据源是否为断点再启动数据源,所述断点再启动数据源为包含多个大数据文件数据源块,且其中一部分数据源块已成功上传而且剩余的数据源块未完成上传;/n步骤2.2.5:若所述待传送的远程云端大数据文本数据源不是断点再启动数据源,则将所述待传送的远程云端大数据文本数据源切割成复数个数据源块,并向服务器上传所述待传送的远程云端大数据文本数据源的各所述数据源块;/n所述步骤3:基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析包括:/n步骤3.1:用户对界面中展示的数据加载进度、文件大小、文件行数、当前行数及字段数的大数据文本字段项目进行调整,结合该方法的运行性能,使得调整后的运行能耗比不高于第一阈值;/n步骤3.2:规范大数据文本语义结构,搭建大数据文本查询分析过程中所涉及的查询文本结构的语义规范模型,通过设置多级别规范的语义描述标准获取各文本结构的语义描述程度,语义规范模型包括文本内容规范模型TCRM、文本查询命令规范模型SCRM、文本查询方式规范模型SMRM和文本查询业务流规范模型FWRM;/n步骤3.3:建立命令解析与查询业务流模型,查询过程控制和反馈结果;/n所述步骤1:采用随机算法,对待处理的大文本数据进行预处理之前还包括:/n步骤0:设置数据同步装置,根据可能采取的数据同步方式,设置多种数据同步装置,包括全量更新同步或增量更新同步方式;/n所述步骤3:基于产生的大数据文本实时交互字段选项,对大数据文本内容进行调整,完成大数据文本实时交互,进行大数据文本语义查询分析之后还包括:/n步骤4:用户本地或远程数据源启动数据同步请求,针对待同步的数据,用户本地或远程数据源根据所采用的数据同步方式,查询支持该数据同步方式的数据同步装置,将该待同步的数据发送给查询到的数据同步装置;/n步骤5:在用户对大数据文本内容进行调整并对大数据文本进行语义查询分析后完成本地或远程的数据同步,将本地或远程的数据同步与用户调整并查询后的内容进行同步更新。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司,未经国网山东省电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710802384.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种木制品油漆施工工艺
- 下一篇:叶片自动分选装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置