[发明专利]一种以群智感知任务为中心的知识图谱构建方法在审

专利信息
申请号: 202011053028.3 申请日: 2020-09-29
公开(公告)号: CN112463976A 公开(公告)日: 2021-03-09
发明(设计)人: 金嘉晖;高士杰;熊润群;张竞慧 申请(专利权)人: 东南大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/295;G06N3/04;G06N3/08
代理公司: 南京众联专利代理有限公司 32206 代理人: 薛雨妍
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 感知 任务 中心 知识 图谱 构建 方法
【权利要求书】:

1.以群智感知任务为中心的演化知识图谱构造方法,其特征在于,该方法包括以下步骤:

步骤(1)在群智感知任务中,以Application为核心构建知识图谱子图,感知任务由Publisher发布,可以拥有多个子任务Task;对发布任务,有hasEvent关系描述特定时间点,hasPlace描述感知地点;每个子任务有hasTitle表示任务名称,hasDescription描述任务详情,hasType描述任务类型,hasState描述具体的感知结果,State可以记录感知的对象hasEntity,感知的对象hasPlace,感知的执行者hasActor,而感知的详细数据将以haseAttr进行保存,以key/value对的形式保留数据key为结果类型,value为状态值;

步骤(2)感知人员进行感知之后,通过平台提交感知数据T,感知数据一般情况下是非格式化的描述文字。对感知数据运用双向LSTM-CRF进行命名实体识别,抽取非格式化文本T中的对应描述实体M;同时,感知数据T中针对感知对象的描述往往包含某种描述关系,通过预处理后,对信息中存在的关系进行抽取,构造M-R-M关系链;

步骤(3)通过步骤(2)得到相关描述实体集合后,需要将描述实体M与知识图谱中节点E进行匹配;利用迭代式搜索算法,首先得到描述实体M的候选节点集在迭代时,筛选匹配度高于阈值的M标记为“已匹配”,作为训练的锚点;每次迭代都加入新的“已匹配”集,直到全部匹配;则M-R-M关系可以构造成E-R-E关系链;

步骤(4)将感知人员提供的E-R-E信息进行可信度检测,主要方式为根据感知人员历史感知信息可靠度,将感知人员区分为勤奋的、草率的和恶意的工作者,丢弃评分过低的感知信息;最后将该次感知的信息构建成图谱子图,并加入原始图谱中,形成图谱的演化过程。

2.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(2)中,采用双向LSTM模型进行命名实体识别及关系提取,具体步骤为:

步骤(2.1)利用业内公开的标注数据集作为训练样本;在命名实体识别中,采用双向LSTM-CRF模型;首先,对输入的非格式化信息T进行分词操作得到字词cj;然后,通过向量映射层将输入的字或词映射为低维向量(一般采用GloVe),即:其中,Tc为映射函数,将字词映射得到特定的嵌入向量,为对应于词cj的词向量;

步骤(2.2)将词向量输入双向LSTM网络中,将正反方向LSTM模型输出的向量进行拼接得到输出向量将该向量输入CRF层,并进而得到预测的标签Lj输出。其中,CRF条件随机场可以形式化的表示为:

其中,输出的分数是每个词ci映射到tagj的概率;在CRF中,存在转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率;矩阵Pi,j为双向LSTM输出的预测分数,即第i个字对应第i个标签的概率;

根据如下损失函数,使得真实路径的占比在全部计算可能路径中比例尽可能提高。路径值即各字词对应标签形成的概率分数,其中P1,P2等为词ci对应于特定标签的可能结果,PRealPath为最终正确的对应方式。

在最终输出结果中,挑选分值最大者为标记结果。将训练好的模型用于标注得到的非结构化感知数据。通过该模型,可以得到cj:Lj映射,表示词cj的标签为Lj

步骤(2.3)通过步骤(2.2)得到{cj:Lj}映射集;首先对映射集进行预筛除,忽略其中所有标注非“人物”、“地点”、“时间”、“动词”等信息;随后,构建关系词字典,用于匹配动词中的描述过程;对于非精确匹配的动词,利用编辑距离计算相似度,高于某个阈值者认为匹配;最后,迭代处理映射集,按照“实体”-“动词”-“实体”的规范读取规范化的数据,将每一条关系作为单个元素构成M-R-M集合{ci:Lk:cj}。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011053028.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top