[发明专利]基于排序学习的深度文本匹配方法及装置有效
| 申请号: | 201910285853.7 | 申请日: | 2019-04-10 |
| 公开(公告)号: | CN110019685B | 公开(公告)日: | 2021-08-20 |
| 发明(设计)人: | 李健铨;刘小康;刘子博;晋耀红 | 申请(专利权)人: | 鼎富智能科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 排序 学习 深度 文本 匹配 方法 装置 | ||
本申请提供了一种基于排序学习的深度文本匹配方法及装置,具体的,首先,获取由假设语句、推理语句组成的句子对,其中,推理语句包括正推理语句和多个负推理语句,假设语句与正推理语句的语义相关、与负推理语句的语义不相关;然后,将句子对中的语句进行相应的处理后,形成语句向量,再根据各语句向量之间的匹配程度值,计算预设损失函数的损失值,并根据该损失值,调整深度匹配模型的参数;最后,利用参数调整最终得到的深度匹配模型,对输入的语句进行文本匹配。本申请将输入句子对由两个句子对扩展为句子序列,并且包含正例和负例两种类型的数据,由于扩展模型的输入数量和类型,进而使得模型的拟合速度加快,有助于提高模型的匹配精度。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于排序学习的深度文本匹配方法及装置。
背景技术
文本匹配是自然语言处理中一个重要的基础问题,自然语言处理中的许多任务都可以抽象为文本匹配任务。例如,网页搜索可抽象为网页同用户搜索Query的一个相关性匹配问题,自动问答可抽象为候选答案与问题的满足度匹配问题,文本去重可以抽象为文本与文本的相似度匹配问题。
传统的文本匹配技术(例如信息检索中的向量空间模型算法),主要解决词汇层面的匹配问题。而实际上,基于词汇重合度的匹配算法有很大的局限性,无法解决很多问题,如语言的多义同义问题、语言的组合结构问题(例如「从北京到上海高铁」和「从上海到北京高铁」)以及匹配的非对称问题(例如网页搜索任务中query端的语言表述形式和网页端往往具有很大的差别)。
深度学习技术兴起后,基于神经网络训练出的Word Embedding(词嵌入向量)来进行文本匹配计算引起了广泛的兴趣。Word Embedding的训练方式更加简洁,而且所得的词语向量表示的语义可计算性进一步加强。但是,只利用无标注数据训练得到的WordEmbedding在匹配度计算的实用效果上和主题模型技术相差不大,它们本质上都是基于共现信息的训练。另外,Word Embedding本身没有解决短语、句子的语义表示问题,也没有解决匹配的非对称性问题。
基于上述问题,目前提出了有监督的神经网络深度匹配模型,以提升语义匹配计算的效果,例如DSSM(Deep Structured Semantic Models,深度语义匹配模型)、CDSSM(Convolutional Latent Semantic Model,卷积潜在语义模型)、ESIM(EnhancingSequential Inference Model、增强顺序推理模型)等。其中,现有的深度匹配模型在训练时多采用句子对匹配。而上述采用句子对的方式,对于多个与训练句子都较为相似的句子,模型不能判断哪个句子更相似,进而影响模型的最终匹配效果。
发明内容
基于现有的句子对训练方式存在的缺点,本申请提供了一种基于排序学习的深度文本匹配方法及装置。
根据本申请实施例的第一方面,提供了一种基于排序学习的深度文本匹配方法,应用于深度匹配模型,所述方法包括:
获取由假设语句、推理语句组成的句子对,其中,所述推理语句包括正推理语句和多个负推理语句,所述假设语句与正推理语句的语义相关、与负推理语句的语义不相关;
将所述句子对中的语句分别用词向量表示,得到所述句子对中各语句的词向量矩阵;
利用各所述词向量矩阵得到所述句子对的相似度矩阵,结合所述句子对中的语句生成彼此相似性加权后的语句向量;
分别计算所述假设语句与正推理语句、以及所述假设语句与各负推理语句所对应的语句向量之间的匹配程度值;
利用Pointwise损失函数和Listwise损失函数组成的联合损失函数,计算各所述语句向量匹配程度值与标准值之间的损失值;
根据所述损失值,调整所述深度匹配模型的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910285853.7/2.html,转载请声明来源钻瓜专利网。





