[发明专利]一种提高语义相似度训练方法及装置在审

申请号：	201911369927.1	申请日：	2019-12-26
公开（公告）号：	CN111178084A	公开（公告）日：	2020-05-19
发明（设计）人：	詹威;肖龙源;蔡振华;李稀敏;刘晓葳	申请（专利权）人：	厦门快商通科技股份有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06K9/62
代理公司：	厦门原创专利事务所(普通合伙) 35101	代理人：	高巍
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提高语义相似训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种提高语义相似度训练方法，所述方法包括：S1：从数据库中获取至少两个样本数据，基于孪生网络的语义相似度计算模型，提取两个样本数据的特征向量，计算两个特征向量的相似度，形成训练数据；S2：通过对偶方式构造所述训练数据，得到对偶训练数据，基于孪生网络的语义相似度计算模型，对所述对偶训练数据进行相似度训练，形成增强性语义相似模型。本发明提出一种训练孪生网络数据增强的方法，利用相似的传递性，通过对偶构造方式训练孪生网络，有效提高基于孪生网络的语义相似度的精度。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种提高语义相似度训练方法及装置。

背景技术

随着人工智能的发展和普及，智能客服在社会的需求越来越大，而采用智能客服回答客户的问题基本都有一个行业内的知识库，常常称为FAQ问答对，FAQ问答对知识库的规模决定了一部分机器人的智能程度，机器人另外一部分的智能程度由相似问句检索决定，尤其是相似问句检索精度，如果知识库中存在相应的知识，但是相似度检索模块却没能检索到库中存在的问答对会导致机器人无法给出回答，显得智能程度很低；如果相似度检索模块检索到了错误的问答对，就会导致答非所问，会显得机器人非常傻，大幅度降低用户体验，如何提升FAQ检索精度成为智能客服的关键技术。

现有计算语义相似度的主流方法为基于有监督的孪生网络，其网络结构为左右两个输入，各自输入一个句子，输出为两者是否相似的一个label，1表示相似，0表示不相似，左右两边共享权值。该方法对于判断两个词之间的相似性精度尚可，但是对于判断两个句子之间的相似性直接用cos效果尚缺，于是各种优化方法接踵而至，如采用负欧式距离作为距离度量等，目前最流行的方法为采用全连接函数，最后加上一个sigmoid函数用作二分类，得到相似或者不相似的label。

发明内容

本发明提供一种提高语义相似度训练方法及装置，其主要目的在于实现能根据对偶构造出的数据，用于数据增强训练，提高数据相似度训练的精度。

为实现上述目的，本发明还提供一种提高语义相似度训练方法，所述方法包括：

S1：从数据库中获取至少两个样本数据，基于孪生网络的语义相似度计算模型，提取两个样本数据的特征向量，计算两个特征向量的相似度，形成训练数据；

S2：通过对偶方式构造所述训练数据，得到对偶训练数据，基于孪生网络的语义相似度计算模型，对所述对偶训练数据进行相似度训练，形成增强性语义相似模型。

优选的，步骤S1进一步包括：

S11：所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第一输入和第二输入，计算两个样本的相似度，并标注二者是否匹配的关联性标识；

步骤S2进一步包括：

S21：通过对偶方式构造所述两个样本数据分别作为所述基于孪生网络语义相似度计算模型的第二输入和第一输入，得到与步骤S11相同的相似度，并标注与步骤S11相同的关联性标识。

优选的，所述是否匹配的关联性包括：

所述两个样本数据之间为彼此关联，即二者匹配；

所述两个样本数据之间为彼此不关联，即二者不匹配。