[发明专利]基于排序学习的深度文本匹配方法及装置有效
| 申请号: | 201910285853.7 | 申请日: | 2019-04-10 |
| 公开(公告)号: | CN110019685B | 公开(公告)日: | 2021-08-20 |
| 发明(设计)人: | 李健铨;刘小康;刘子博;晋耀红 | 申请(专利权)人: | 鼎富智能科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 排序 学习 深度 文本 匹配 方法 装置 | ||
1.一种基于排序学习的深度文本匹配方法,应用于深度匹配模型,其特征在于,所述方法包括:
获取由假设语句、推理语句组成的句子对,其中,所述推理语句包括正推理语句和多个负推理语句,所述假设语句与正推理语句的语义相关、与负推理语句的语义不相关;
将所述句子对中的语句分别用词向量表示,得到所述句子对中各语句的词向量矩阵;
利用各所述词向量矩阵得到所述句子对的相似度矩阵,结合所述句子对中的语句生成彼此相似性加权后的语句向量;
分别计算所述假设语句与正推理语句、以及所述假设语句与各负推理语句所对应的语句向量之间的匹配程度值;
利用Pointwise损失函数和Listwise损失函数组成的联合损失函数,计算各所述语句向量匹配程度值与标准值之间的损失值;其中,所述联合损失函数loss的计算公式为:loss=Lp+Ll+L2Regularization,Lp为Pointwise损失函数,Lp=max(0,m-s(rh;rp+)+s(rh;rp-));Ll为Listwise损失函数,L2Regularization为L2正则函数;rh为假设语句的语句向量表示,rp+和rp-是分别为正推理语句和负推理语句的语句向量表示,s(rh;rp+)为假设语句和正推理语句所对应的语句向量的余弦相似度,s(rh;rp-)为假设语句和负推理语句所对应的语句向量的余弦相似度,m为预设的判定正负推理语句的阈值,n为由正推理语句和负推理语句组成的样本个数;
根据所述损失值,调整所述深度匹配模型的参数;
利用所述参数调整所得到的深度匹配模型,对输入的语句进行文本匹配。
2.根据权利要求1所述的方法,其特征在于,获取由假设语句、推理语句组成的句子对,包括:
选取被作为假设语句和正推理语句、且语义相关的两个正例语句;
选取被作为负推理语句的、且与所述正例语句的语义不相关的多个负例语句;
将两个所述正例语句以及各所述负例语句组成句子对。
3.根据权利要求1所述的方法,其特征在于,将所述句子对中的语句分别用词向量表示,得到所述句子对中各语句的词向量矩阵,包括:
将所述句子对中的语句分别进行分词并用词向量表示,得到初始词向量矩阵;
将词性、共现信息和位置编码向量添加至所述初始词向量矩阵,得到所述句子对中各语句的词向量矩阵。
4.根据权利要求1所述的方法,其特征在于,结合所述句子对中的语句生成彼此相似性加权后的语句向量之后,所述方法还包括:
将所述假设语句分别与正推理语句、各负推理语句彼此相似性加权后所得到的各语句向量,进行归一化处理。
5.根据权利要求1所述的方法,其特征在于,利用各所述词向量矩阵得到所述句子对的相似度矩阵,结合所述句子对中的语句生成彼此相似性加权后的语句向量,包括:
利用各所述词向量矩阵所对应的相似度矩阵,生成所述句子对中的语句彼此相似性加权后的初始语句向量;
根据各所述初始语句向量所对应的语句的语境,重新对各所述初始语句向量进行编码,得到所述句子对中各语句的语句向量。
6.根据权利要求1所述的方法,其特征在于,根据所述损失值,调整所述深度匹配模型的参数,包括:
以最小化所述损失值为目标,调整所述深度匹配模型的参数。
7.一种基于排序学习的深度文本匹配装置,应用于深度匹配模型,其特征在于,所述装置包括:
句子对获取模块:用于获取由假设语句、推理语句组成的句子对,其中,所述推理语句包括正推理语句和多个负推理语句,所述假设语句与正推理语句的语义相关、与负推理语句的语义不相关;
词向量表示模块:用于将所述句子对中的语句分别用词向量表示,得到所述句子对中的语句的词向量矩阵;
相似加权模块:用于利用各所述词向量矩阵得到所述句子对的相似度矩阵,结合所述句子对中的语句生成彼此相似性加权后的语句向量;
损失值计算模块:用于分别计算所述假设语句与正推理语句、以及所述假设语句与各负推理语句所对应的语句向量之间的匹配程度值,利用Pointwise损失函数和Listwise损失函数组成的联合损失函数,计算各所述语句向量匹配程度值与标准值之间的损失值;其中,所述联合损失函数loss的计算公式为:loss=Lp+Ll+L2Regularization,Lp为Pointwise损失函数,Lp=max(0,m-s(rh;rp+)+s(rh;rp-));Ll为Listwise损失函数,L2Regularization为L2正则函数;rh为假设语句的语句向量表示,rp+和rp-是分别为正推理语句和负推理语句的语句向量表示,s(rh;rp+)为假设语句和正推理语句所对应的语句向量的余弦相似度,s(rh;rp-)为假设语句和负推理语句所对应的语句向量的余弦相似度,m为预设的判定正负推理语句的阈值,n为由正推理语句和负推理语句组成的样本个数;
模型参数调整模块:用于根据所述损失值,调整所述深度匹配模型的参数;
文本匹配模块:用于利用所述参数调整所得到的深度匹配模型,对输入的语句进行文本匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910285853.7/1.html,转载请声明来源钻瓜专利网。





