[发明专利]一种以群智感知任务为中心的知识图谱构建方法在审
申请号: | 202011053028.3 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112463976A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 金嘉晖;高士杰;熊润群;张竞慧 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 薛雨妍 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 感知 任务 中心 知识 图谱 构建 方法 | ||
1.以群智感知任务为中心的演化知识图谱构造方法,其特征在于,该方法包括以下步骤:
步骤(1)在群智感知任务中,以Application为核心构建知识图谱子图,感知任务由Publisher发布,可以拥有多个子任务Task;对发布任务,有hasEvent关系描述特定时间点,hasPlace描述感知地点;每个子任务有hasTitle表示任务名称,hasDescription描述任务详情,hasType描述任务类型,hasState描述具体的感知结果,State可以记录感知的对象hasEntity,感知的对象hasPlace,感知的执行者hasActor,而感知的详细数据将以haseAttr进行保存,以key/value对的形式保留数据key为结果类型,value为状态值;
步骤(2)感知人员进行感知之后,通过平台提交感知数据T,感知数据一般情况下是非格式化的描述文字。对感知数据运用双向LSTM-CRF进行命名实体识别,抽取非格式化文本T中的对应描述实体M;同时,感知数据T中针对感知对象的描述往往包含某种描述关系,通过预处理后,对信息中存在的关系进行抽取,构造M-R-M关系链;
步骤(3)通过步骤(2)得到相关描述实体集合后,需要将描述实体M与知识图谱中节点E进行匹配;利用迭代式搜索算法,首先得到描述实体M的候选节点集在迭代时,筛选匹配度高于阈值的M标记为“已匹配”,作为训练的锚点;每次迭代都加入新的“已匹配”集,直到全部匹配;则M-R-M关系可以构造成E-R-E关系链;
步骤(4)将感知人员提供的E-R-E信息进行可信度检测,主要方式为根据感知人员历史感知信息可靠度,将感知人员区分为勤奋的、草率的和恶意的工作者,丢弃评分过低的感知信息;最后将该次感知的信息构建成图谱子图,并加入原始图谱中,形成图谱的演化过程。
2.根据权利要求1所述的以群智感知任务为中心的演化知识图谱构造方法,其特征在于,步骤(2)中,采用双向LSTM模型进行命名实体识别及关系提取,具体步骤为:
步骤(2.1)利用业内公开的标注数据集作为训练样本;在命名实体识别中,采用双向LSTM-CRF模型;首先,对输入的非格式化信息T进行分词操作得到字词cj;然后,通过向量映射层将输入的字或词映射为低维向量(一般采用GloVe),即:其中,Tc为映射函数,将字词映射得到特定的嵌入向量,为对应于词cj的词向量;
步骤(2.2)将词向量输入双向LSTM网络中,将正反方向LSTM模型输出的向量进行拼接得到输出向量将该向量输入CRF层,并进而得到预测的标签Lj输出。其中,CRF条件随机场可以形式化的表示为:
其中,输出的分数是每个词ci映射到tagj的概率;在CRF中,存在转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率;矩阵Pi,j为双向LSTM输出的预测分数,即第i个字对应第i个标签的概率;
根据如下损失函数,使得真实路径的占比在全部计算可能路径中比例尽可能提高。路径值即各字词对应标签形成的概率分数,其中P1,P2等为词ci对应于特定标签的可能结果,PRealPath为最终正确的对应方式。
在最终输出结果中,挑选分值最大者为标记结果。将训练好的模型用于标注得到的非结构化感知数据。通过该模型,可以得到cj:Lj映射,表示词cj的标签为Lj;
步骤(2.3)通过步骤(2.2)得到{cj:Lj}映射集;首先对映射集进行预筛除,忽略其中所有标注非“人物”、“地点”、“时间”、“动词”等信息;随后,构建关系词字典,用于匹配动词中的描述过程;对于非精确匹配的动词,利用编辑距离计算相似度,高于某个阈值者认为匹配;最后,迭代处理映射集,按照“实体”-“动词”-“实体”的规范读取规范化的数据,将每一条关系作为单个元素构成M-R-M集合{ci:Lk:cj}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011053028.3/1.html,转载请声明来源钻瓜专利网。