[发明专利]一种语义相似性分析方法及深度神经网络训练方法在审
| 申请号: | 202310148387.4 | 申请日: | 2023-02-22 |
| 公开(公告)号: | CN116432730A | 公开(公告)日: | 2023-07-14 |
| 发明(设计)人: | 吕荣聪;黄任泽;张健平;王文轩;苏玉鑫 | 申请(专利权)人: | 香港中文大学深圳研究院 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06F40/30;G06F40/253;G06F40/289;G06F18/22 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀锋 |
| 地址: | 518000 广东省深圳市南山区粤海街*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语义 相似性 分析 方法 深度 神经网络 训练 | ||
1.一种语义相似性分析方法,用于分析原文本与基于所述原文本自动生成的文本测试用例,其特征在于,包括以下步骤:
S1:语义分析,结合编辑距离和提取特征获取所述文本测试用例与所述原文本的相似度分数;
S2:语法分析,获取所述文本测试用例的困惑度分数。
2.根据权利要求1所述的方法,其特征在于,步骤S1和步骤S2中均包含以下步骤:在分析前,对需要分析的文本进行分词处理。
3.根据权利要求1所述的方法,其特征在于,步骤S1包括以下步骤:
S1-1:接收所述原文本与所述文本测试用例,将编辑距离算法应用于所述原文本与所述文本测试用例,分别将两个文本中与对方不一致的字段及其前后特定数量的词语提取出来作为一个小短句;
S1-2:对所有所述小短句,分别计算其上下文相关特征,得到每一个小短句的向量化表示;
S1-3:计算所述文本测试用例的小短句与所述原文本的小短句的第一余弦相似度,以及所述文本测试用例与所述原文本的第二余弦相似度;
S1-4:获取所有所述第一余弦相似度中最小的余弦相似度,计算所有所述第一余弦相似度的平均余弦相似度,最后和所述第二余弦相似度进行加权求和,得到相似度分数。
4.根据权利要求3所述的方法,其特征在于,步骤S1-3具体包括以下步骤:
S1-3-1:将所述原文本中某一小短句的上下文相关特征记为a,将所述文本测试用例中与a相对应的小短句的上下文相关特征记为b,计算第一余弦相似度,并对所有小短句都进行本操作,计算公式为:
S1-3-2:对所述原文本和所述文本测试用例分别计算其上下文相关特征,将所述原文本的上下文相关特征记为c,将所述文本测试用例的上下文相关特征记为d,计算第二余弦相似度,计算公式为:
5.根据权利要求3所述的方法,其特征在于,步骤S1-1中,所述前后特定数量的词语为前后各2个词语,与所述不一致的词语共5个词语组成一个小短句。
6.根据权利要求3所述的方法,其特征在于,步骤S1-2具体为,将所有所述小短句送入预训练语言模型中,得到模型提取的特征,该特征为向量化表示。
7.根据权利要求1所述的方法,其特征在于,步骤S2包括以下步骤:
S2-1:接收所述文本测试用例,将其送入预训练语言模型按如下公式计算困惑度:
其中,N为所述测试文本用例中所含词语的个数,第i个词语记为xi,P(xi|x\i)含义为,在给定除了xi所在位置以外的其他所有词语时,预训练语言模型预测该位置为xi的机率;困惑度即为将所有词语的预测机率取均值。
8.根据权利要求7所述的方法,其特征在于,步骤S2还包括以下步骤:
S2-2:获取步骤S2-1中计算得到的困惑度,获取步骤S2-1中计算P(xi|x\i)得到的机率中的最小机率;两者加权求和(权重由在不同数据集MR、Yelp、SNLI、MNLI、QQP上的实验结果总结得出),得到困惑度分数。
9.一种深度神经网络训练方法,用于训练模型,其特征在于,使用根据权利要求1-8任一项所述的语义相似性分析方法获取文本测试用例的相似度分数和困惑度分数,并根据所述相似度分数和所述困惑度分数对训练模型进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学深圳研究院,未经香港中文大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310148387.4/1.html,转载请声明来源钻瓜专利网。





