[发明专利]大规模非结构化数据提取方法、其系统、分布式数据管理平台在审
| 申请号: | 201710301596.2 | 申请日: | 2017-05-02 |
| 公开(公告)号: | CN107122472A | 公开(公告)日: | 2017-09-01 |
| 发明(设计)人: | 江有归;封雷;刘东升 | 申请(专利权)人: | 杭州泰一指尚科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06N3/04 |
| 代理公司: | 北京科家知识产权代理事务所(普通合伙)11427 | 代理人: | 莫文新 |
| 地址: | 310051 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 大规模 结构 数据 提取 方法 系统 分布式 数据管理 平台 | ||
1.一种大规模非结构化数据提取方法,其特征在于,所述方法包括:
获取若干非结构化数据对象,并将所述非结构化数据对象的特征抽象为属性;
使用所述非结构话数据对象的所有属性对应的多维向量表示所述非结构化数据对象;
将所述多维向量作为卷积神经网络输入的基本单元;
通过卷积神经网络的卷积层学习所述训练数据的局部属性;
通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量;
将所述第二特征向量输入所述卷积神经网络的全连接层,利用分类器获得非结构化数据分类结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:训练所述卷积神经网络;
所述训练所述卷积神经网络具体包括:
设卷积神经网络中可训练参数为:θ=(W1,W2),其中W1为卷积核的参数,应用如下优化目标函数:
其中,T为训练的样本数量;
构建p(i|x,θ)作为似然函数,在给定x,θ的情况下,输出提取的数据的属性类别为i的概率通过如下算式计算:
使用梯度下降的方法求解可训练参数,W1,W2的值随机初始化,通过向后传播算法求导。
3.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络的卷积层学习所述训练数据的局部属性,具体包括:
通过若干个长度与所述多维向量的维度相同的卷积单元学习所述非结构对象的属性特征;
其中,卷积过程通过如下算式表示:
ci=f(W1di+b),i=1,2,...,n
其中,W1表示卷积单元的权重,b表示其偏移量,f为非线性激活函数;
对输入的所有多维向量均进行所述卷积过程,获得第一特征向量;所述第一特征向量为:c=[c1,c2,...,ci,...,cn]。
4.根据权利要求3所述的方法,其特征在于,所述通过卷积神经网络的池化层将所述局部属性进行统计操作,获得第二特征向量,具体包括:
进行最大池化操作,获取所述第一特征向量的特征值,所述特征值为:
对每个卷积单元均执行所述最大池化操作并将各个卷积单元的特征值连接生成第二特征向量;所述第二特征向量为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州泰一指尚科技有限公司,未经杭州泰一指尚科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710301596.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种酒店特色点评抽取的方法
- 下一篇:一种Excel数据的导入导出方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





