[发明专利]文本数据分析优化方法、系统、存储介质和计算机设备在审

申请号：	201711262752.5	申请日：	2017-12-04
公开（公告）号：	CN108255603A	公开（公告）日：	2018-07-06
发明（设计）人：	林克全;邓凡;杨杰;胡璇;赵静	申请（专利权）人：	广州供电局有限公司
主分类号：	G06F9/50	分类号：	G06F9/50;G06F17/22
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	黄晓庆
地址：	510620 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本数据文本数据分析切割处理器核心计算机设备并行处理存储介质子数据处理器分析获取处理器输入处理器分析数据计算资源数据切割大文本数据量有效地多核申请优化耗时合并
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本数据分析优化方法，其特征在于，包括：

获取处理器核心数；

根据所述处理器核心数，确定文本数据的切割数；

切割所述文本数据，得到子文本数据；

将所述子文本数据输入处理器进行并行处理，得到分析子数据；

将所述分析子数据合并得到分析数据。

2.根据权利要求1所述的文本数据分析优化方法，其特征在于，所述切割所述文本数据，得到子文本数据的步骤包括：

获取文本数据大小，根据所述文本数据大小与所述切割数的比值，得到子文本数据大小；

读取所述文本数据；

每当读取到与所述子文本数据大小相等的数据量时，切割所述文本数据，得到所述子文本数据。

3.根据权利要求2所述的文本数据分析优化方法，其特征在于，所述读取所述文本数据的步骤包括：

采用多进程分块读取方式读取所述文本数据。

4.根据权利要求2所述的文本数据分析优化方法，其特征在于，所述读取所述文本数据的步骤包括：

根据各处理器核心建立读取进程；

根据所述切割数和所述子文本数据大小确定各个所述读取进程的读取起始位置；

根据所述读取起始位置，通过所述读取进程读取所述文本数据。

5.根据权利要求4所述的文本数据分析优化方法，其特征在于，所述读取所述文本数据的步骤还包括：

获取所述处理器核心的可用内存大小；

根据所述子文本数据大小与所述可用内存大小的比值调整读取次数。

6.根据权利要求2所述的文本数据分析优化方法，其特征在于，所述每当读取到与所述子文本数据大小相等的数据量时，切割所述文本数据，得到所述子文本数据的步骤包括：

当读取到与所述子文本数据大小相等的数据量时，获取当前读取数据在所述文本数据中的位置；

当所述当前读取数据在所述文本数据中的位置为行间位置时，继续读取直至所述文本数据当前行的行尾位置，切割所述文本数据；

根据当前切割位置进行下一次读取，直至读取完所述文本数据，得到所述子文本数据。

7.根据权利要求1所述的文本数据分析优化方法，其特征在于，所述将所述分析子数据合并得到分析数据的步骤包括：

通过文件锁命令和管道命令将所述分析子数据依次汇入同一管道进行合并，得到所述分析数据。

8.一种文本数据分析优化系统，其特征在于，包括：

核心数获取模块，用于获取处理器核心数；

切割数确定模块，用于根据所述处理器核心数，确定文本数据的切割数；

子文本数据获取模块，用于切割所述文本数据，得到子文本数据；

分析子数据获取模块，用于将所述子文本数据输入所述处理器进行并行处理，得到所述分析子数据；

分析数据获取模块，用于将所述分析子数据合并得到分析数据。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述文本数据分析优化方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述文本数据分析优化方法的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州供电局有限公司，未经广州供电局有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711262752.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载