[发明专利]一种语义相似性分析方法及深度神经网络训练方法在审

专利信息
申请号: 202310148387.4 申请日: 2023-02-22
公开(公告)号: CN116432730A 公开(公告)日: 2023-07-14
发明(设计)人: 吕荣聪;黄任泽;张健平;王文轩;苏玉鑫 申请(专利权)人: 香港中文大学深圳研究院
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04;G06F40/30;G06F40/253;G06F40/289;G06F18/22
代理公司: 深圳新创友知识产权代理有限公司 44223 代理人: 江耀锋
地址: 518000 广东省深圳市南山区粤海街*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语义 相似性 分析 方法 深度 神经网络 训练
【说明书】:

发明提供一种语义相似性分析方法及深度神经网络训练方法,用于分析原文本与基于所述原文本自动生成的文本测试用例,包括以下步骤:S1:语义分析,结合编辑距离和提取特征获取所述文本测试用例与所述原文本的相似度分数;S2:语法分析,获取所述文本测试用例的困惑度分数。应用本发明的方法,可以解决当前自动生成测试用例误报警率高,影响深度神经网络训练效果的技术问题,实现更好的模型性能。

技术领域

本发明涉及深度神经网络训练领域,尤其涉及一种语义相似性分析方法及深度神经网络训练方法。

背景技术

如今,深度神经网络(DNN,Deep Neural Networks)被大量用于自然语言处理(NLP,Natural Language Processing)的应用中,但由于DNN的低可靠性,为了保证实际应用中的效果,经常需要设计大量测试用例。然而,手动构造测试用例需求大量人工及时间,因此研究者们已经提出了各种自动化测试技术来提高NLP应用的可靠性。理论上,这些技术大部分会基于现有的测试用例(通常是文本-标签对)做变换,并假设通过变换后生成的文本保留了完全一致或至少相似的语义,进而能够保持相同的标签,然而现有技术还存在高误报率和低质量的测试用例的问题。

评估研究发现,现有技术中,最先进的测试方法生成的测试用例中,有44%是误报警。这些测试用例会占用大量的人工检查时间,并且当他们被包含在DNN模型迭代训练中时,他们甚至会降低模型的能力。现有的检测语义相似度的方法很难在这个场景上准确地检测语义相似性。因此,现有自动化测试技术中存在自动生成的测试用例误报警率高,影响深度神经网络训练效果的技术问题。这些误报实例若加入模型训练过程中则会对模型性能产生负面影响。

发明内容

针对现有技术中存在的不足之处,本发明提出了一种语义相似性分析方法及深度神经网络训练方法,解决了当前自动生成测试用例误报警率高,影响深度神经网络训练效果的技术问题。

为了实现上述目的,本发明采用如下技术方案:

一种语义相似性分析方法,用于分析原文本与基于所述原文本自动生成的文本测试用例,包括以下步骤:

S1:语义分析,结合编辑距离和提取特征获取所述文本测试用例与所述原文本的相似度分数;

S2:语法分析,获取所述文本测试用例的困惑度分数。

进一步地,步骤S1和步骤S2中均包含以下步骤:在分析前,对需要分析的文本进行分词处理。

进一步地,步骤S1包括以下步骤:

S1-1:接收所述原文本与所述文本测试用例,将编辑距离算法应用于所述原文本与所述文本测试用例,分别将两个文本中与对方不一致的字段及其前后特定数量的词语提取出来作为一个小短句;

S1-2:对所有所述小短句,分别计算其上下文相关特征,得到每一个小短句的向量化表示;

S1-3:计算所述文本测试用例的小短句与所述原文本的小短句的第一余弦相似度,以及所述文本测试用例与所述原文本的第二余弦相似度;

S1-4:获取所有所述第一余弦相似度中最小的余弦相似度,计算所有所述第一余弦相似度的平均余弦相似度,最后和所述第二余弦相似度进行加权求和(权重由在不同数据集MR、Yelp、SNLI、MNLI、QQP上的实验结果总结得出),得到相似度分数。

进一步地,步骤S1-3具体包括以下步骤:

S1-3-1:将所述原文本中某一小短句的上下文相关特征记为a,将所述文本测试用例中与a相对应的小短句的上下文相关特征记为b,计算第一余弦相似度,并对所有小短句都进行本操作,计算公式为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于香港中文大学深圳研究院,未经香港中文大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310148387.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top