[发明专利]一种基于知识驱动的对话重写方法及系统在审

申请号：	202111251522.5	申请日：	2021-10-25
公开（公告）号：	CN114036271A	公开（公告）日：	2022-02-11
发明（设计）人：	章莉莉;郭相威;王永利;范恒旭	申请（专利权）人：	江苏腾霜白信息科技有限公司;南京理工大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/36;G06N3/04
代理公司：	南京理工大学专利中心 32203	代理人：	薛云燕
地址：	210012 江苏省南京市雨花***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于知识驱动对话重写方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于知识驱动的对话重写方法，其特征在于，具体如下：

构建实体重写模型和多轮对话重写模型；

实体重写模型为有歧义的实体增加实体描述和实体归一化描述，其中实体描述内容来自百度百科和维基百科相对应该实体的介绍，实体归一化描述通过知识图谱得到；

多轮对话重写模型恢复当前对话的指代和缺失的信息，所述对话的指代和缺失的信息由处理历史多轮对话文本恢复。

2.根据权利要求1所述的基于知识驱动的对话重写方法，其特征在于，所述实体重写模型为有歧义的实体增加实体描述和实体归一化描述，具体如下：

(1)首先将所有的对话文本进行命名实体的识别；

将历史对话拼接成一段文本，通过双向长短时记忆网络和条件随机场完成中文命名实体识别的任务；

在实现过程中，S＝(s₁，s₂，...，s_n)表示历史的对话文本，其中s_i表示第i句历史对话，1≤i≤n，n表示历史对话的句子数，拼接后的文本表示为W＝(w₁，w₂，...，w_m)，其中w_i表示拼接后的第i个单词，1≤i≤m，m代表对话文本的单词总数；

(2)将识别出来的实体集合表示为E＝{e₁，e₂，...，e_p}，其中e_i表示第i个实体，1≤i≤p，p表示对话中识别出来的所有实体的个数；

(3)将识别出的实体和知识图谱中的实体进行链接：首先使用Word2vec得到候选词表，之后通过实体重写模型从候选词表中找出与对话文本中实体最相似的实体，再通过知识图谱得到实体归一化表述，将对话文本中的实体改写为知识图谱中的实体归一化表述。

3.根据权利要求2所述的基于知识驱动的对话重写方法，其特征在于，所述实体重写模型的框架分为七层，每个层面具体如下：

实体层：首先从历史对话文本中识别出实体集合E＝{e₁，e₂，..，e_p}，其中e_i表示第i个实体，1≤i≤p，p表示实体个数，之后从中依次循环得到其中的实体e_i，对e_i进行实体重写，之后通过Word2vec找到e_i的候选词表记为{Word₁，Word₂，…，Word_n}，其中Word_i表示第i个候选词，1≤i≤n，n表示候选词表的大小，设定n大小为5，从集合中依次找出候选词Word_i，1≤i≤5，将实体层得到的候选词Word_i传递给句子构建层；

句子构建层：将历史对话进行拼接记为sentence₁，代表实体e_i的上下文语境，之后从实体层得到候选词Word_i，经过知识图谱链接，在图谱找出Word_i的实体描述记为sentence₂，将sentence₁和sentence₂作为输入进行相似度比较；

特征向量构建层：将sentence₁和sentence₂中的单词映射到一个低维的向量空间中，向量空间记为R_E，E是特征向量的维数；

编码层：通过Bi-LSTM模型对特征向量进行学习，Bi-LSTM模型由一个前向LSTM模型和一个后向LSTM模型构成，前向LSTM模型用于获取上文信息，后向LSTM模型用于获取下文信息，通过Bi-LSTM模型得到句子sentence₁和sentence₂中单词的隐藏层信息h_i，1≤i≤S，其中i表示句子中第i个的单词，S表示句子的长度；

表示前向LSTM网络的隐藏层表示，表示后向LSTM的隐藏层表示，将和拼接得到h_i表示句子中单词w_i的隐藏层表示；

权重调整层：通过attention机制对句子中的词进行权重调整，e_i表示第i个神经元输出值，a_i表示词在句子中的重要性，计算公式如下：

e_i＝tanh(W_hh_i+b_h)，e_i∈[-1，1]

其中W_h表示感知机的权重，b_h为偏置项，u_h为自注意力机制的权重矩阵，L为特征向量维度，R^2L为2L列的实向量空间，T为神经元维度，r代表经过处理后的语义特征向量；

全连接层：将sentence₁和sentence₂经过权重调整层的语义特征信息记为r₁和r₂，将r₁和r₂进行拼接输入到全连接层中，使用tanh作为激活函数，学习非线性特征表示为c，r为语义特征向量，R^2L为4L列的实向量空间，为感知机权重，b_c为偏置值；

r＝r₁||r₂，r∈R^4L

输出层：输出层使用SVM作为分类器，输出[0，1]的概率来衡量单词的相似度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江苏腾霜白信息科技有限公司;南京理工大学，未经江苏腾霜白信息科技有限公司;南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111251522.5/1.html，转载请声明来源钻瓜专利网。