[发明专利]一种网络威胁情报文档实体关系提取方法及装置有效
申请号: | 202110689400.8 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113515598B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 王栋;杨珂;李达;王合建;陈帅;潘晓婷;吕佳宇 | 申请(专利权)人: | 国网电子商务有限公司;国网雄安金融科技集团有限公司;国网区块链科技(北京)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/284;G06F40/295 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 100053 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 威胁 情报 文档 实体 关系 提取 方法 装置 | ||
1.一种网络威胁情报文档实体关系提取方法,其特征在于,包括:
获取目标文档和目标实体集合;所述目标文档为待提取实体关系的网络威胁情报文档;所述目标实体集合中包括多个目标实体,所述目标实体为目标文档所包括的句子中的预设文本字段;
对所述目标文档进行句子拆分,得到所述目标文档对应的句子序列;
分别将所述句子序列中的每N个连续的句子构建成每N个连续的句子对应的句子集合;所述N为大于1的正整数;
基于所述目标实体集合,确定每个句子集合对应的各个目标实体;
针对每个句子集合,对所述句子集合对应的各个目标实体进行两两组合,生成至少一个实体组合;
针对每个实体组合,利用预先构建的实体关系提取模型,对所述实体组合和所述实体组合对应的句子集合进行处理,得到所述实体组合对应的实体关系结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标实体集合,确定每个句子集合对应的各个目标实体,包括:
确定所述目标实体集合中每个所述目标实体所属的句子;
针对每个句子集合,确定所述句子集合包括的各个句子,基于所述句子集合所包括的各个句子、以及所述目标实体集合中每个所述目标实体所属的句子,确定所述句子集合中包括的每个句子对应的各个目标实体;
针对每个句子集合,将所述句子集合中包括的每个句子对应的各个目标实体确定为所述句子集合对应的目标实体。
3.根据权利要求1所述的方法,其特征在于,所述实体关系提取模型包括嵌入表示处理网络、双向长短期记忆网络、图卷积神经网络、多层感知机、拼接网络和提取模型,所述利用预先构建的实体关系提取模型,对所述实体组合和所述实体组合对应的句子集合进行处理,包括:
利用嵌入表示处理网络分别对所述实体组合对应的句子集合、以及所述实体组合中的每个目标实体进行嵌入表示处理,得到所述句子集合的嵌入表示、以及所述实体组合中每个目标实体的嵌入表示;
分别将所述句子集合的嵌入表示、以及所述实体组合中每个目标实体的嵌入表示输入至所述双向长短期记忆网络中,得到所述句子集合的上下文信息、以及所述实体组合中每个目标实体的上下文信息;
分别将所述句子集合的上下文信息、以及所述实体组合中每个目标实体的上下文信息输入至所述图卷积神经网络中,得到所述句子集合的集合表示、以及所述实体组合中每个目标实体的实体表示;
利用所述拼接网络将所述句子集合的集合表示、和所述实体组合中的每个目标实体的实体表示进行拼接,得到拼接结果;
将所述拼接结果输入至所述多层感知机中,得到所述拼接结果对应的表示向量;
将所述拼接结果对应的表示向量输入至所述提取模型中,得到所述实体组合对应的实体关系结果。
4.根据权利要求3所述的方法,其特征在于,利用嵌入表示处理网络对所述实体组合对应的句子集合进行嵌入表示处理,得到所述句子集合的嵌入表示,包括:
获取所述实体组合对应的句子集合中包括的每个词的词嵌入表示、词性嵌入表示和属性标签嵌入表示;
针对所述实体组合对应的句子集合中的每个词,将所述词的嵌入表示、词性嵌入表示和属性标签嵌入表示,组成所述词的嵌入表示;
将所述实体组合对应的句子集合中的每个词的嵌入表示,组成所述实体组合对应的句子集合的嵌入表示。
5.根据权利要求1或3所述的方法,其特征在于,所述实体关系提取模型的构建过程,包括:
采集样本数据集;所述样本数据集包括多组样本数据,所述样本数据包括网络威胁情报文档样本句子集合、样本实体对和实体关系结果,所述样本实体对包括两个样本实体,所述样本实体为其所属样本数据中的所述网络威胁情报文档样本句子集合中的预设文本字段;
从所述样本数据集中选取多组样本数据组成训练数据集,从所述样本数据集中选取多组样本数据组成测试数据集;
以所述训练数据集对初始实体关系提取模型进行训练;
以测试数据集对训练后的初始实体关系提取模型进行测试,若训练后的初始实体关系提取模型的误差率小于预设阈值,则将训练后的初始实体关系提取模型作为实体关系提取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网电子商务有限公司;国网雄安金融科技集团有限公司;国网区块链科技(北京)有限公司,未经国网电子商务有限公司;国网雄安金融科技集团有限公司;国网区块链科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110689400.8/1.html,转载请声明来源钻瓜专利网。