[发明专利]非结构化数据处理方法、装置、电子设备及存储介质在审
| 申请号: | 202210787366.2 | 申请日: | 2022-07-04 |
| 公开(公告)号: | CN115081400A | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | 贾霄鹏;杨斌 | 申请(专利权)人: | 深圳市致远速联信息技术有限公司 |
| 主分类号: | G06F40/166 | 分类号: | G06F40/166 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 卢万腾 |
| 地址: | 518008 广东省深圳市罗湖区桂园*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 结构 数据处理 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种非结构化数据处理方法、装置、电子设备及存储介质,属于数据处理技术领域。本申请通过,获取非结构化数据对应的操作指令,其中,所述非结构化数据被预先划分为多个结构单元,每个结构单元对应所述非结构化数据中的部分数据内容;基于所述操作指令在多个所述结构单元中确定目标结构单元,以及,读取所述目标结构单元对应的目标数据内容;按照所述操作指令的指示对所述目标数据内容进行处理,以提高对非结构化数据的处理效率。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种非结构化数据处理方法、装置、电子设备及存储介质。
背景技术
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML和各类报表等等。非结构化数据的扩展性较好,可以自由表达许多信息。但是因为其格式上的自由性,如何存储和管理这种数据成为一个难以解决的问题。
目前,常见的处理方案是将非结构化数据存储至结构化数据库中(即,通过结构化数据库将非结构化数据转换为结构化数据),在用户查看或编辑某个非结构化数据时,需要在结构化数据库中读取该非结构化数据的完整信息,进而将完整信息展示给用户进行查看或编辑。
然而,上述处理方案中,由于在用户查看或编辑某个非结构化数据时,需要读取非结构化数据的完整信息,处理效率低下。
发明内容
本申请实施例的目的在于提供一种非结构化数据处理方法、装置、电子设备及存储介质,以解决利用目前的管理方式管理非结构化数据存在处理效率低下的问题。具体技术方案如下:
第一方面,提供了一种非结构化数据处理方法,所述方法包括:
获取非结构化数据对应的操作指令,其中,所述非结构化数据被预先划分为多个结构单元,每个结构单元对应所述非结构化数据中的部分数据内容;
基于所述操作指令在多个所述结构单元中确定目标结构单元,以及,读取所述目标结构单元对应的目标数据内容;
按照所述操作指令的指示对所述目标数据内容进行处理。
在一个可能的实施方式中,所述操作指令携带有目标内容格式,
所述基于所述操作指令在多个所述结构单元中确定目标结构单元,包括:
按照预设的内容格式与结构单元的对应关系,在多个所述结构单元中确定所述目标内容格式对应的第一结构单元,将所述第一结构单元确定为所述目标结构单元。
在一个可能的实施方式中,所述操作指令携带有目标单元标识,
所述基于所述操作指令在多个所述结构单元中确定目标结构单元,包括:
按照预设的单元标识与结构单元的对应关系,在多个所述结构单元中确定所述目标单元标识对应的第二结构单元,将所述第二结构单元确定为所述目标结构单元。
在一个可能的实施方式中,所述获取非结构化数据对应的操作指令之前,还包括:
获取所述非结构化数据及所述非结构化数据对应的数据类型;
基于所述数据类型将所述非结构化数据拆分为多个结构单元;
针对多个所述结构单元中的任一结构单元,识别所述结构单元在所述非结构化数据中对应的部分数据内容,并创建所述结构单元与所述部分数据内容的对应关系。
在一个可能的实施方式中,所述方法还包括:
针对多个所述结构单元中的任一结构单元,生成所述结构单元对应的唯一的单元标识,以及,确定所述结构单元对应的部分数据内容的内容格式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市致远速联信息技术有限公司,未经深圳市致远速联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210787366.2/2.html,转载请声明来源钻瓜专利网。





