[发明专利]一种基于深度学习的电力通信领域知识图谱问答系统的构建方法在审

专利信息
申请号: 201811441698.5 申请日: 2018-11-29
公开(公告)号: CN109271506A 公开(公告)日: 2019-01-25
发明(设计)人: 李石君;马旭强;杨济海;余伟;余放;李宇轩 申请(专利权)人: 武汉大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F16/36
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 鲁力
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 问答系统 预处理 电力通信 领域知识 向量化 答案 构建 图谱 自然语言 语义匹配度计算 自然语言问题 查询 国家电网 通信领域 图谱构建 用户查询 语义表示 语义解析 候选集 匹配度 推理 匹配 取出 学习 焦点 研究
【权利要求书】:

1.一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,将用户提出的自然语言问题表示为q=ω1...ωn,将问题的所有候选答案表示为答案候选集Cq,具体包括:

步骤1:语义解析,具体是对用户用自然语言提出的问题q进行预处理,从中抽取出用户查询的关键字,查询句关注的焦点等作为问句的实体w;

步骤2:语义表示,具体是将经过预处理的自然语言问题向量化,同时将答案a的候选集向量化,用于后续计算问题q和答案a的匹配度;

步骤3:通过语义匹配度计算、查询以及推理,找出与问题q最匹配、最准确的答案a,使得该问答对(q,a)的得分S(q,a)最高。

2.根据权利要求1所述的一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,所述步骤1具体包括:

步骤1.1,问题分词以及词性标注:采用汉语词法分析系统进行问题分词以及词性标注;在经过分词之后,将自然语言问题表述为q=ω1...ωn,其中wn为中文词语;

步骤1.2,问题命名实体识别:根据步骤1.1中标注的词性筛选出问题q中描述的命名实体,作为问题的关键字和关注焦点;关键词抽取常用的方法是统计法,即通过确定候选词的权重,从中筛选出权重大的作为最终的关键词;关键词抽取的具体方法是:

步骤1.21,将正文进行分词处理;

步骤1.22,过滤掉停用词,即虚词、语气词以及标点符号等;

步骤1.23,根据统计的词频和位置信息,分别计算出词语的词频因子和位置因子;

步骤1.24,用具体的词语权重函数计算出词语的权重,对其排序,选取权值大者为关键词;

步骤1.23,抽取过程后,进行命名实体的识别,以便对句子的主语和宾语进行计算;

步骤1.3,生成答案候选集:根据问题q的关键词以及命名实体,在知识库中检索出该实体结点及其在2-hops范围之内的邻近结点,共同组成问题q的答案候选集Cq

3.根据权利要求1所述的一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,所述步骤2具体包括:

步骤2.1,问题q向量化:对于经过预处理的问题q=ω1...ωn,将其中的每一个词语ωj映射成一个低维空间的向量wj,即为词的向量化;通过词嵌入矩阵Wv将其转换为一个d维的分布式向量,即

wj=Wvu(ωj)

其中(u(ωj)∈{0,1}|V|)为单词ωj对应的one-hot形式,是词嵌入矩阵(wordembedding matrix),|V|表示词汇量的大小;在MCCNNs网络的训练过程中,Wv作为超参数被不断更新;

然后,在神经网络的卷积层使用滑动窗口计算问题q的表示;例如对于MCCNNs的第i列,计算问题q的n维向量如下:

其中,2s+1即为滑动窗口的大小,为卷积层的权重矩阵,表示偏差向量,h(·)为非线性函数(如sigmoid函数、tanh函数等);

最后,在最大池化层训练输出固定大小的问题q的向量表示,其中MCCNNs的第i列激活单元的输出为:

其中max{.}为最大值函数;这样最终得到了问题q的低维空间向量fi(q);

步骤2.2,候选答案集的向量化:对于答案的三种特征,答案路径、答案上下文信息以及答案类型,分别表示出其向量化的过程:

对于答案路径(Answer Path):表示的是答案节点与问题中的命名实体的关联关系;则答案路径的分布式表达g1(a)的向量表示可用以下公式计算:

其中,||·||1表示L1范数,up(a)∈R|R|×1为二元向量用来表示答案路径的每一个关联关系是否存在,为参数矩阵,|R|为关联关系的个数;

对于答案上下文信息(Answer Context):其作用是用来处理问题的约束条件;将答案实体对应1跳(hop)范围内的实体关系和实体作为答案实体的上下文信息;通过同样的方式得到答案上下文信息的分布式表达为:

其中,uc(a)∈R|C|×1表示信息节点是否存在的二元向量,|C|代表答案上下文存在的实体对关系的个数,为参数矩阵;

对于答案类型(Answer Type):类型是一种特殊的实体关系,比如时间2018-01-01的类型是datetime;通过同样的方式,得到相应的分布式表达为:

其中,为嵌入类型的矩阵,ut(a)∈R|T|×1表示答案类型是否存在的二元变量,|T|为答案类型的数目;

结合以上描述,得到了MCCNNs的最终输出函数为:

4.根据权利要求1所述的一种基于深度学习的电力通信领域知识图谱问答系统的构建方法,其特征在于,所述步骤3具体包括:

步骤3.1,训练MCCNNs神经网络模型:对于问题q的每一个正确的答案a∈Aq,随机地从答案候选集Cq中抽取出k个错误的答案a'作为样本,将其作为训练模型参数的负样本;则Hinge损失函数可以定义为:

l(q,a,a')=(m-S(q,a)+S(q,a'))+

其中,S(·,·)为步骤2中定义的得分函数,m为间隔参数用来规范两种得分S(q,a)和S(q,a')

之间的间隔,并且(z)+=max{0,z};则主观函数为:

其中|Aq|表示准确答案的个数,为k个错误答案的集合;

采用神经网络的反向传播算法来训练该模型,通过计算超参数的梯度值来利用梯度下降算法不断更新它;

步骤3.2,语义匹配及推理:在测试过程中检索了所有的有关问题q的答案候选集Cq;对于每一个候选答案计算出其得分则候选答案集中得分最高的答案a即为问题q的最准确答案;

对于自然语言问句q,由于其准确答案可能不止一个,比如“设备的型号类型”;因此,需要一种评比准则来决定最终答案;评比准则公式为:

其中m为步骤3.1中定义的间隔。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811441698.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top