[发明专利]文本数据分析优化方法、系统、存储介质和计算机设备在审
| 申请号: | 201711262752.5 | 申请日: | 2017-12-04 |
| 公开(公告)号: | CN108255603A | 公开(公告)日: | 2018-07-06 |
| 发明(设计)人: | 林克全;邓凡;杨杰;胡璇;赵静 | 申请(专利权)人: | 广州供电局有限公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F17/22 |
| 代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 黄晓庆 |
| 地址: | 510620 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本数据 文本数据分析 切割 处理器核心 计算机设备 并行处理 存储介质 子数据 处理器 分析 获取处理器 输入处理器 分析数据 计算资源 数据切割 大文本 数据量 有效地 多核 申请 优化 耗时 合并 | ||
1.一种文本数据分析优化方法,其特征在于,包括:
获取处理器核心数;
根据所述处理器核心数,确定文本数据的切割数;
切割所述文本数据,得到子文本数据;
将所述子文本数据输入处理器进行并行处理,得到分析子数据;
将所述分析子数据合并得到分析数据。
2.根据权利要求1所述的文本数据分析优化方法,其特征在于,所述切割所述文本数据,得到子文本数据的步骤包括:
获取文本数据大小,根据所述文本数据大小与所述切割数的比值,得到子文本数据大小;
读取所述文本数据;
每当读取到与所述子文本数据大小相等的数据量时,切割所述文本数据,得到所述子文本数据。
3.根据权利要求2所述的文本数据分析优化方法,其特征在于,所述读取所述文本数据的步骤包括:
采用多进程分块读取方式读取所述文本数据。
4.根据权利要求2所述的文本数据分析优化方法,其特征在于,所述读取所述文本数据的步骤包括:
根据各处理器核心建立读取进程;
根据所述切割数和所述子文本数据大小确定各个所述读取进程的读取起始位置;
根据所述读取起始位置,通过所述读取进程读取所述文本数据。
5.根据权利要求4所述的文本数据分析优化方法,其特征在于,所述读取所述文本数据的步骤还包括:
获取所述处理器核心的可用内存大小;
根据所述子文本数据大小与所述可用内存大小的比值调整读取次数。
6.根据权利要求2所述的文本数据分析优化方法,其特征在于,所述每当读取到与所述子文本数据大小相等的数据量时,切割所述文本数据,得到所述子文本数据的步骤包括:
当读取到与所述子文本数据大小相等的数据量时,获取当前读取数据在所述文本数据中的位置;
当所述当前读取数据在所述文本数据中的位置为行间位置时,继续读取直至所述文本数据当前行的行尾位置,切割所述文本数据;
根据当前切割位置进行下一次读取,直至读取完所述文本数据,得到所述子文本数据。
7.根据权利要求1所述的文本数据分析优化方法,其特征在于,所述将所述分析子数据合并得到分析数据的步骤包括:
通过文件锁命令和管道命令将所述分析子数据依次汇入同一管道进行合并,得到所述分析数据。
8.一种文本数据分析优化系统,其特征在于,包括:
核心数获取模块,用于获取处理器核心数;
切割数确定模块,用于根据所述处理器核心数,确定文本数据的切割数;
子文本数据获取模块,用于切割所述文本数据,得到子文本数据;
分析子数据获取模块,用于将所述子文本数据输入所述处理器进行并行处理,得到所述分析子数据;
分析数据获取模块,用于将所述分析子数据合并得到分析数据。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述文本数据分析优化方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述文本数据分析优化方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州供电局有限公司,未经广州供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711262752.5/1.html,转载请声明来源钻瓜专利网。





