[发明专利]知识抽取方法、装置、电子设备及存储介质在审

申请号：	202010318382.8	申请日：	2020-04-21
公开（公告）号：	CN111639498A	公开（公告）日：	2020-09-08
发明（设计）人：	张聪	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/242;G06F40/216;G06F40/30;G06F16/36
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	刘丽华;孙芬
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	知识抽取方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种知识抽取方法、装置、电子设备及存储介质。该方法能够对源数据进行预处理，得到文本数据，通过Bi‑LSTM+CRF序列标注模型识别文本数据中的实体，得到初始实体列表，基于Bi‑LSTM+CRF序列标注模型实现向非结构化数据的准确转换，基于知识图谱对初始实体列表进行扩展，得到候选实体列表，实现对相似表示的全面覆盖，并采用基于Attention‑DSSM算法训练的语义匹配模型对候选实体列表进行消歧处理，得到目标实体，由于Attention机制加强了每个词汇与其它词汇间的关联，且提高了关键词汇的权重，使经过数据分析后得到的目标实体更加精准，将目标实体链接到知识图谱的节点上，并基于节点上的信息进行自动的知识抽取，提高了知识抽取的效率及准确率。

技术领域

本发明涉及数据分析技术领域，尤其涉及一种知识抽取方法、装置、电子设备及存储介质。

背景技术

目前的知识抽取通常依赖于模板、触发词或者是监督学习的方式，需要人工进行规则的总结及数据的标注以形成规则库，并在规则库的基础上进行匹配。

上述方式不仅难以维护、可移植性差，且大量的规则模板都需要依赖各领域内的专家进行构建，数据标注所需人力大，标注数据的质量也不可控且综合成本过高，也不便于扩展新的关系和类别。

发明内容

鉴于以上内容，有必要提供一种知识抽取方法、装置、电子设备及存储介质，能够基于Attention机制加强每个词汇与其它词汇间的关联，根据关键词汇的权重，实现知识的自动抽取，提高知识抽取的效率及准确率。

一种知识抽取方法，所述知识抽取方法包括：

当接收到知识抽取指令时，获取源数据；

对所述源数据进行预处理，得到文本数据；

通过基于Bi-LSTM+CRF的序列标注模型识别所述文本数据中的实体，得到初始实体列表；

基于预先配置的知识图谱对所述初始实体列表进行扩展，得到候选实体列表；