[发明专利]知识数据的抽取方法、系统、计算机设备和存储介质有效
| 申请号: | 201811092435.8 | 申请日: | 2018-09-19 |
| 公开(公告)号: | CN109189848B | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 陈泽晖;胡逸凡;李琦;黄鸿顺 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/2458;G06F16/28 |
| 代理公司: | 北京市京大律师事务所 11321 | 代理人: | 苏福念 |
| 地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 数据 抽取 方法 系统 计算机 设备 存储 介质 | ||
1.一种知识数据的抽取方法,其特征在于,包括:
获取基金数据,生成基金知识数据表,所述基金数据存储于基金数据库中;
获取基金知识抽取方案,应用深度学习模型对所述基金知识抽取方案进行训练得到基金知识抽取规则,所述基金知识抽取方案存储于所述基金数据库中;
所述获取基金知识抽取方案,应用深度学习模型对所述基金抽取方案进行训练得到基金知识抽取规则,所述基金知识抽取方案存储于所述基金数据库中,包括:
从所述基金数据库中调取所述基金知识抽取方案,所述基金知识抽取方案包括句子和关系类型,任一所述关系类型均对应有一编码向量;
将所述基金知识抽取方案传送给所述深度学习模型,通过所述深度学习模型将所述基金知识抽取方案中的句子进行矩阵化表示;
获取所述基金知识抽取方案中的关系类型所对应的编码向量,通过双向长短时记忆网络模型,对所述编码向量进行语义编码,得到句子中的每一个词的语义向量,所述编码向量it=tanh(W1+Wi+bi),式中tanh()为双曲正切函数,W1为第1个权重矩阵,Wi为第i个权重矩阵,i≤6,bi为偏置项取值范围为0.05~0.10;
通过单向长短时记忆网络模型对所述句子中的每一个词的语义向量进行序列标注,得到一个标签序列;
根据所述标签序列对所述基金知识抽取方案进行特征词修订,得到所述基金知识抽取规则;
根据所述基金知识抽取规则对所述基金知识数据表进行基金知识特征的抽取;
所述根据所述基金知识抽取规则对所述基金知识数据表进行基金知识特征的抽取,包括:
从所述基金知识数据表中获取初始句群,所述初始句群包括一个以上的句子;
为所述初始句群设置一个期望长度,根据所述初始句群的长度与期望长度的比较结果,设置所述初始句群的权重阈值,所述权重阈值=(K/F)/G,其中,比较结果F=期望长度/(初始句群长度+冗余值),G为阈值调整因子且G为大于1的数,K为属性权重密度;
将所述基金知识抽取规则的权重与所述权重阈值进行比较,根据比较结果对所述初始句群进行扩展,得到适合所述基金知识抽取规则的最终句群;
利用所述基金知识抽取规则从所述最终句群中抽取所述基金知识特征。
2.根据权利要求1所述的知识数据的抽取方法,其特征在于,所述获取基金数据,生成基金知识数据表,所述基金数据存储于基金数据库中,包括:
设定从所述基金数据库中获取所述基金数据的时间阈值;
当时间节点到达所述时间阈值时,对所述基金数据进行抽取;
将获得的所述基金数据进行汇总,并按照表名、表中的字段和表的记录进行划分,得到所述基金知识数据表。
3.根据权利要求2所述的知识数据的抽取方法,其特征在于,所述设定从所述基金数据库中获取所述基金数据的时间阈值,还包括时间阈值修订过程,具体包括:
获取每次根据所述时间阈值对所述基金数据进行抽取得到的各个所述基金数据表;
利用误差函数计算任意两个所述基金数据表中每项内容的相似度;
若任意两个所述基金数据表中每项内容的相似度小于或等于误差阈值,则使用此时间阈值作为基金数据抽取的时间节点;
若任意两个所述基金数据表中每项内容的相似度大于误差阈值,则使用误差修正模型对所述时间阈值进行修订使所述相似度小于所述误差阈值。
4.根据权利要求1所述的知识数据的抽取方法,其特征在于,所述获取基金数据,生成基金知识数据表,所述基金数据存储于基金数据库中,还包括确定所述基金数据在所述基金数据表中的位置,具体包括:
将所述基金数据放入到归一化正交矩阵中进行正交边际化处理,获得所述基金数据中不同属性的置信度;
对所述基金数据中不同属性的置信度进行聚类,获得每一类别的属性的子置信度;
对所述每一类别的属性的子置信度进行正态分布排列,根据正态分布排列的最大值对应的属性确定所述基金数据在所述基金数据表中的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811092435.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





