[发明专利]大规模非结构化数据提取方法、其系统、分布式数据管理平台在审
| 申请号: | 201710301596.2 | 申请日: | 2017-05-02 |
| 公开(公告)号: | CN107122472A | 公开(公告)日: | 2017-09-01 |
| 发明(设计)人: | 江有归;封雷;刘东升 | 申请(专利权)人: | 杭州泰一指尚科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06N3/04 |
| 代理公司: | 北京科家知识产权代理事务所(普通合伙)11427 | 代理人: | 莫文新 |
| 地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 结构 数据 提取 方法 系统 分布式 数据管理 平台 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及大规模非结构化数据提取方法、其系统、分布式数据管理平台。
背景技术
随着社会的飞速发展,如今各个行业的信息、数据量都呈现爆炸性增长的趋势。在企业和公共事业中,各类业务变得越来越复杂,信息化水平迅速提高,进入了数据化时代。因此,数据成为了最重要的资产之一,其不仅仅体现在常规业务的操作需求,更为事业发展的方向提供数据支持,起到了重要的决策作用。
与此同时,传统的数据类型的占比已逐渐下降。随着业务需求以及功能多样化意味着非结构化数据已经占据了较大比例。现有对非结构化数据的提取通常使用文件服务器系统记性管理,并人工筛选统筹分类等初级解决方案。
该类方案操作复杂、准确度低,仅能应对简单的数据存储需求,且对非结构化数据的索引、分类、属性等高级特性的几乎无法支持。由于大数据具有数量大、运行速度快、分类多等特点,造成了大量异构和非结构化问题,使得许多现有的数据分析和挖掘的优秀算法工具,无法适用于非结构化大数据。这对于非结构化大数据的数据挖掘和利用造成了障碍。
深度学习作为当前流行的通用工具适合解决上述大规模非结构化数据提取问题。在深度学习中,可以按照输入自动进行特征的学习,神经网络中的每层都将学习到对应的特征,低层网络学习到的特征抽象化组合后构成高层网络出入。这种深度学习的方法可以应用在图片分析等其他领域都体现出了超强的性能,近几年,深度学习及其神经网络模型已成为了特征抽取的重要方法。非结构化数据可以将其维度作为神经网络模型的输入,最后将高效地提取出特征并进行分类。
为了更好的实现大规模非结构化数据的分析,对于大规模的非结构化数据按照特征类别进行提取分类的需求越来越强烈。如何结合深度学习的强大功能,以满足这样的提取分类需求是一个有待解决的问题。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供大规模非结构化数据提取方法、其系统、分布式数据管理平台,旨在解决现有技术中大规模非结构化数据的提取分类的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种大规模非结构化数据提取方法,其中,所述方法包括:
获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;
使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;
将所述多维向量作为卷积神经网络输入的基本单元;
通过卷积神经网络的卷积层学习所述训练数据的局部属性;
通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;
将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
所述的方法,其中,所述方法还包括:训练所述卷积神经网络;
所述训练所述卷积神经网络具体包括:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。
所述的方法,其中,所述通过卷积神经网络的卷积层学习所述训练数据的局部属性,具体包括:
通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;
其中,卷积过程通过如下算式表示:
ci=f(W1di+b),i=1,2,...,n
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;
对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,…,ci,...,cn]。
所述的方法,其中,所述通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量,具体包括:
进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州泰一指尚科技有限公司,未经杭州泰一指尚科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710301596.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种酒店特色点评抽取的方法
- 下一篇:一种Excel数据的导入导出方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





