[发明专利]知识抽取方法、装置、电子设备及存储介质在审
| 申请号: | 202010318382.8 | 申请日: | 2020-04-21 |
| 公开(公告)号: | CN111639498A | 公开(公告)日: | 2020-09-08 |
| 发明(设计)人: | 张聪 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/216;G06F40/30;G06F16/36 |
| 代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;孙芬 |
| 地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 抽取 方法 装置 电子设备 存储 介质 | ||
1.一种知识抽取方法,其特征在于,所述知识抽取方法包括:
当接收到知识抽取指令时,获取源数据;
对所述源数据进行预处理,得到文本数据;
通过基于Bi-LSTM+CRF的序列标注模型识别所述文本数据中的实体,得到初始实体列表;
基于预先配置的知识图谱对所述初始实体列表进行扩展,得到候选实体列表;
采用基于Attention-DSSM算法训练的语义匹配模型对所述候选实体列表进行消歧处理,得到目标实体;
将所述目标实体链接到所述知识图谱的节点上;
基于所述节点上的信息进行知识抽取。
2.如权利要求1所述的知识抽取方法,其特征在于,所述对所述源数据进行预处理,得到文本数据包括:
当所述源数据为图片类型时,将所述源数据转换为初始文本,对所述初始文本进行过滤及清洗,得到过滤后的文本,基于UTF-8编码算法对所述过滤后的文本进行编码,得到所述文本数据;或者
当所述源数据为文本类型时,对所述源数据进行过滤及清洗,得到过滤后的文本,基于UTF-8编码算法对所述过滤后的文本进行编码,得到所述文本数据。
3.如权利要求1所述的知识抽取方法,其特征在于,所述知识抽取方法还包括:
根据预先定义的需求数据配置序列标注模式;
将所述序列标注模式添加到Bi-LSTM+CRF模型中,得到所述序列标注模型。
4.如权利要求1所述的知识抽取方法,其特征在于,所述通过基于Bi-LSTM+CRF的序列标注模型识别所述文本数据中的实体,得到初始实体列表包括:
将所述文本数据输入到所述基于Bi-LSTM+CRF的序列标注模型中,并获取Softmax层中每个序列位置上对应的各个标签的输出概率以及转移概率;
对于每个序列位置,计算各个标签的输出概率以及转移概率的和作为各个标签的分值;
将分值最高的标签确定为每个序列位置的输出标签;
组合每个序列位置的输出标签,得到所述初始实体列表。
5.如权利要求1所述的知识抽取方法,其特征在于,所述基于预先配置的知识图谱对所述初始实体列表进行扩展,得到候选实体列表包括:
计算所述初始实体列表中的每个实体与所述知识图谱中各个节点上实体的余弦相似度;
从各个节点上获取余弦相似度大于或者等于预设相似度的至少一个实体作为候选实体;
根据所述初始实体列表及所述候选实体构建所述候选实体列表。
6.如权利要求1所述的知识抽取方法,其特征在于,所述采用基于Attention-DSSM算法训练的语义匹配模型对所述候选实体列表进行消歧处理,得到目标实体包括:
基于One-Hot编码算法对所述候选实体列表中的每个实体进行编码,得到每个实体的词ID;
将每个实体的词ID输入到预先配置的词典中,输出每个实体的词向量;
基于Attention机制处理每个实体的词向量,得到每个实体的语义表示;
将每个实体的语义表示在Interaction层进行交互,输出每个实体交互后的语义向量;
将每个实体交互后的语义向量在匹配层与所述知识图谱节点上的实体进行匹配,输出匹配度最高的实体作为所述目标实体。
7.如权利要求1所述的知识抽取方法,其特征在于,所述基于所述节点上的信息进行知识抽取包括:
从所述节点上的信息中获取节点间的至少一个路径以及每个路径上的关联信息;
基于每个路径上的关联信息以及对应的路径抽取出至少一个关系网。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010318382.8/1.html,转载请声明来源钻瓜专利网。





