[发明专利]一种多模型融合的语料生成方法及装置在审

申请号：	202010852854.8	申请日：	2020-08-22
公开（公告）号：	CN112949674A	公开（公告）日：	2021-06-11
发明（设计）人：	田东坡;巩乐;朱燕青;闵宇翔	申请（专利权）人：	上海昌投网络科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F40/20
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	何东明
地址：	200135 上海市浦东新区自由贸易试验区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型融合语料生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明适用于自然语言处理技术领域，提供了一种多模型融合的语料生成方法及装置，通过首先采集待处理问题的训练文本集，接着构建unilm预训练数据集，然后通过Bert‑encoder获取sentence embedding计算相似度，并把相似度最高的问题的提供给人工标注，对人工标注数据集使用随机采样、分层采样，基于Transformer和unilm调整参数，然后接收的用户输入的问题并对预测出待扩充语料，根据模型的效果BLEAURT，获得待扩充的语料，最后生成多样性的扩充语料，获得最终语料扩充结果，本发明通过使用多种模型生成的方法融合，既保证了模型生成语料的语义连贯，又提高了生成语料的多样性，我们使用前沿的Transformers、UNILM算法，并基于理财教育行业的数据训练了预训练模型。

技术领域

本发明属于自然语言处理的技术领域，尤其涉及一种多模型融合的语料生成方法及装置。

背景技术

理财教育行业人工智能领域落地情况并不多，主要原因是自身行业数据缺少，又私密不方便开源，所以在理财教育行业文本生成或语料扩充上提出了要求。

近年来NLP领域发展迅速，但是能落地到理财教育并取得较好效果的并不多，最前沿的文本生成算法在理财教育领域落地情况并不好。

文本生成的难度相对其他NLP任务较大，既要保证语义的连贯，又要保证生成语料的多样性。

发明内容

本发明提供一种多模型融合的语料生成方法及装置，旨在解决现有技术存在的问题。

本发明是这样实现的，一种多模型融合的语料生成方法，包括以下步骤：

S1、采集待处理问题的训练文本集；

S2、构建unilm预训练数据集；

S3、通过Bert-encoder获取sentence embedding计算相似度，并把相似度最高的前300个问题的提供给人工标注，标注待扩充问题的对应的相似问题，所述相似问题作为待补充问题的对应的扩充语料；