[发明专利]一种将非结构化数据转化为结构化数据的方法及装置在审

专利信息
申请号: 201811289109.6 申请日: 2018-10-31
公开(公告)号: CN109344298A 公开(公告)日: 2019-02-15
发明(设计)人: 黄文琦;明哲;许爱东;滑春波;陈华军;杨航;关泽武 申请(专利权)人: 南方电网科学研究院有限责任公司;中国南方电网有限责任公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/31
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 罗满
地址: 510663 广东省广州市萝岗区科*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 非结构化数据 结构化数据 转化 目标信息 文件索引信息 预定义规则 查询效率 存储地址 多个方面 管理难度 内容相关 内容转化 算法模型 文件标题 结构化 可视化 查找 管理
【说明书】:

发明公开了一种将非结构化数据转化为结构化数据的方法,除了可将待转化的非结构化数据的文件标题、存储地址以及文件索引信息等转化为结构化数据之外,还可根据与待转化的非结构化数据的类型所对应的算法模型提取待转化的非结构化数据中与该非结构化数据内容相关的第一目标信息;再根据预定义规则将第一目标信息转化为结构化数据,进而可将非结构化数据的内容转化为结构化数据。可多个方面对待转化的非结构化数据进行结构化转化,利用非结构化数据的内容也可查找或管理非结构化数据,提高了非结构化数据的可视化和查询效率、降低了管理难度。另外,本发明还公开了一种将非结构化数据转化为结构化数据的装置,效果如上。

技术领域

本发明涉及数据类型转化领域,特别涉及一种将非结构化数据转化为结构化数据的方法及装置。

背景技术

目前使用的数据类型主要包括三种结构:结构化数据这类信息能够用数据或统一的结构加以表示,并存储在数据库中,有一定的路基结构,可以用二维表来表示。非结构化数据这类信息是指数据结构不固定,无法用二维数据表结构表示的数据,如文档、图像和视频。半结构化数据是介于结构化数据和非结构化数据之间的一种数据形式(如XML、文档),它是具有结构的数据,但是结构变化很大。

三种类型的结构化数据的特征是:结构化数据易于管理、查询效率高、可靠度高、可以增加权限控制、管理成本非常低。结构化数据常常存放在关系型数据库中,可以让使用者更方便、更高效的进行搜寻。但是对于结构化数据来说最大的弊端就是不易于扩展,有固定的格式、模板,增加数据属性时异常困难。对于半结构化数据的重要性日趋凸显,主要是因为它的灵活性,半结构化数据是“无模式”的,其数据是自描述的,并且关联了其模式的信息,这种模式可以随时间在单一数据库内任意改变。而对于非结构化数据,虽然具有很好的可扩展性且足够灵活,但是在数据管理、查询方面面临很大的困难,所以将分结构化数据转化为结构化数据显得尤为重要。

目前主要是将非结构数据类型的文件标题、存储地址以及标注等可以代表非结构数据类型的主要信息进行转化,利用转化后的文件标题、存储地址以及标注等结构化数据去查找或管理非结构数据类型的文件。但是这种转化方式比较单一,会导致转化后的文件的内容依然是由非结构数据类型组成的文件,仍然存在可视化以及管理问题,并且采用现有技术中的这种转化方式管理难度和查询难度较大。

由此可见,如何克服由于非结构化数据转化为结构化数据的方式单一,进而导致的非结构化数据可视化效果差以及查询和管理难度大的问题是本领域技术人员亟待解决的问题。

发明内容

本申请实施例提供了一种将非结构化数据转化为结构化数据的方法及装置,以解决现有技术中由于非结构化数据转化为结构化数据的方式单一,进而导致的非结构化数据可视化效果差以及查询和管理难度大的问题。

为解决上述技术问题,本发明提供了一种将非结构化数据转化为结构化数据的方法,包括将待转化的非结构化数据的目标信息转化为结构化数据,其中,所述目标信息至少包括除所述待转化的非结构化数据的内容之外的文件标题、存储地址以及文件索引信息,其特征在于,还包括:

依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息;

根据预定义规则将所述第一目标信息转化为结构化数据以将所述待转化的非结构化数据的内容转化为结构化数据。

优选地,当所述待转化的非结构化数据的类型为文本文件时,所述算法模型具体为LDA主题模型。

优选地,所述依据与所述待转化的非结构化数据的类型所对应的算法模型提取与所述待转化的非结构化数据的内容对应的第一目标信息具体包括:

确定所述文本文件的内容中各数据的先验概率;

依据所述先验概率计算所述文本文件的内容中各数据的相似度;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网科学研究院有限责任公司;中国南方电网有限责任公司,未经南方电网科学研究院有限责任公司;中国南方电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811289109.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top