[发明专利]样本章节的生成方法、装置、设备以及存储介质在审
| 申请号: | 202011166648.8 | 申请日: | 2020-10-27 |
| 公开(公告)号: | CN112329453A | 公开(公告)日: | 2021-02-05 |
| 发明(设计)人: | 李若铭 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 章节 生成 方法 装置 设备 以及 存储 介质 | ||
本申请公开了样本章节的生成方法、装置、设备以及存储介质,涉及深度学习、自然语言处理技术领域。具体实现方案为:获取包括多个章节内容的待处理文本;针对每个章节内容中的对话内容,获取对话内容以及对应上下文中角色的出现次数,以及角色与对话内容之间的距离,以预测对话内容的主要角色;获取主要角色的重要度信息;根据每个章节内容中对话内容的主要角色以及主要角色的重要度信息,从待处理文本中选择目标章节内容,并基于目标章节内容生成样本章节。由此,生成了能够用于小样本学习的样本章节,且利用本申请的方法生成的样本章节进行小样本学习,能够使得到的模型在执行新任务时的准确性更高,从而优化模型的性能。
技术领域
本申请涉及人工智能技术领域,特别涉及深度学习、自然语言处理技术领域,尤其涉及样本章节的生成方法、装置、电子设备以及存储介质。
背景技术
在深度学习技术中,由于模型训练步骤复杂、耗时长,因此针对一些自然语言和语音处理任务,在训练比较复杂的模型时,通常采用预训练模型来提高模型训练效率。通过对预训练模型进行微调,可以将预训练模型较好的迁移到其它相关的任务中。
目前,可以利用小样本学习的方式,对预训练模型进行微调,以将预训练模型迁移到其它相关任务中,然而,由于在小样本学习时利用的样本数据量较少,容易导致训练得到的模型的性能较差,因此,如何挑选用于小样本学习的样本数据,对于提高模型的性能具有重要意义。
发明内容
本公开提供了一种样本章节的生成方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种样本章节的生成方法,包括:获取待处理文本,其中,所述待处理文本包括多个章节内容;针对每个所述章节内容中的对话内容,获取所述对话内容以及对应上下文中角色的出现次数,以及角色与所述对话内容之间的距离;根据所述对话内容以及对应上下文中角色的出现次数,以及角色与所述对话内容之间的距离,预测所述对话内容的主要角色;获取所述主要角色的重要度信息;根据每个所述章节内容中所述对话内容的主要角色以及所述主要角色的重要度信息,从所述待处理文本中选择目标章节内容,并基于所述目标章节内容生成样本章节。
根据本公开的另一方面,提供了一种样本章节的生成装置,包括:第一获取模块,用于获取待处理文本,其中,所述待处理文本包括多个章节内容;第二获取模块,用于针对每个所述章节内容中的对话内容,获取所述对话内容以及对应上下文中角色的出现次数,以及角色与所述对话内容之间的距离;预测模块,用于根据所述对话内容以及对应上下文中角色的出现次数,以及角色与所述对话内容之间的距离,预测所述对话内容的主要角色;第三获取模块,用于获取所述主要角色的重要度信息;生成模块,用于根据每个所述章节内容中所述对话内容的主要角色以及所述主要角色的重要度信息,从所述待处理文本中选择目标章节内容,并基于所述目标章节内容生成样本章节。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的样本章节的生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的样本章节的生成方法。
根据本申请的技术,生成了能够用于小样本学习的样本章节,且使得利用本申请的方法生成的样本章节进行小样本学习,对预训练模型进行微调,得到的模型在执行新任务时的准确性更高。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011166648.8/2.html,转载请声明来源钻瓜专利网。





