[发明专利]一种基于半监督学习和元学习的少样本NL2SQL方法在审

专利信息
申请号: 202210147772.2 申请日: 2022-02-17
公开(公告)号: CN114817307A 公开(公告)日: 2022-07-29
发明(设计)人: 郭心南;陈永锐;漆桂林 申请(专利权)人: 东南大学
主分类号: G06F16/2452 分类号: G06F16/2452;G06F16/242;G06N20/00
代理公司: 南京众联专利代理有限公司 32206 代理人: 杜静静
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 样本 nl2sql 方法
【说明书】:

专利公开了一种基于半监督学习和元学习的少样本NL2SQL方法。本方法能在仅拥有少量标注数据的场景下,通过自训练框架的辅助对模型进行迭代训练,在这过程中逐步优化模型以及伪标签。首先对基础模型利用已有的少量标注数据进行热启动训练后,将其用于大量无标注数据的伪标签以及置信度预测,并使其与标签数据结合使对模型进行半监督学习。在半监督学习的过程中,同时引入元学习算法,它会在训练过程中进行任务采样,利用其特有任务训练机制来提升模型的快速学习以及迁移学习能力。最终得到的NL2SQL模型具有接近使用大量标注数据在有监督条件下训练的模型的准确率,同时针对新数据具有强大的少样本快速学习与微调的能力。

技术领域

本发明涉及一种基于半监督学习和元学习的文本转结构化查询语言(NL2SQL, NaturalLanguagetoStructureQueryLanguage)的方法,属于信息处理技术领域。

背景技术

随着互联网的发展,海量数据以爆炸式的速度产生与增长。数据库则成为了人们数据存储的常用工具。目前各行各业,无论是医疗、金融、化工还是电力等,都会产生很多业务数据以及知识数据,而这些数据都会被选择存储在数据库中;同时在软件与平台开发过程中,数据库也成为了首选的后端数据存储容器。数据库的中存储的数据无论是修改还是查询,都需要特定的查询语言,那就是SQL。但SQL语言在具有灵活的查询功能的同时,其语法本身也较为复杂和难懂,只能由具备一定专业知识的人来进行操作,而对于普通用户来说,他们难以直接使用SQL来查询数据库。

NL2SQL是为了解决查询问题而诞生的技术,它的核心目标是将描述查询的自然语言转化为SQL语句。这项技术可以允许普通用户使用非常口语化的自然语言来对数据库进行查询并直接得到答案。这种检索技术与返回大量相关网页或者内容的传统搜索引擎相比更具有准确性和高效性,也因此,目前它已经被用于很多问答的领域,如智能客服,智能助手等应用。

NL2SQL本身是一个复杂的任务,与传统的序列生成任务不同,SQL语句的生成需要遵循严格的语法规则,同时要根据自然语句识别出查询目标,聚合函数,限定条件等。目前基于深度学习的NL2SQL方法虽然能取得较高的准确率,但是这些方法需要大量的标注数据作为支持。由于标注本身需要自然语言,表格与SQL互相对应,导致难以从互联网的海量数据中自动获取,且由于SQL的复杂语法导致人工标注成本很大,因此缺乏带标注的监督数据来训练模型是目前阻碍NL2SQL从学术界到工业界发展的一个重要挑战。半监督学习可以使用大量无标注数据结合已有的少量标注数据来对模型进行训练,以解决缺乏监督数据的问题。同时元学习可以通过其特有的训练机制来提升模型的迁移学习能力,使其能仅通过少量样本学习新的任务。这启发了我们将半监督学习和元学习的技术用于 NL2SQL,以解决标注数据量过少的问题。

发明内容

本发明正是针对现有NL2SQL技术中存在的技术问题,提供了一种结合半监督学习和元学习的NL2SQL方法,通过半监督学习引入大量无标注数据配合少量标注数据进行训练,弥补监督数据不足的情况,同时利用元学习的任务学习机制来提升模型的迁移学习能力,使模型能够通过少量样本快速学习新任务。

为了实现上述目的,本发明的技术方案如下:

步骤1)构建NL2SQL模型,并进行参数初始化;

步骤2)利用标注数据进行热启动训练,直至准确率达到阈值;

步骤3)利用自学习框架对NL2SQL模型参数进行多轮训练和更新,直至模型参数收敛,其中每一轮自训练过程包括:

步骤3.1)使用模型为大量无标签数据预测伪标签以及置信度,作为伪标签数据集。

步骤3.2)从标签数据集和伪标签数据集的混合数据中采样任务集合,并使用基于列特异性的元学习算法对模型进行训练和参数更新。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210147772.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top