[发明专利]文本生成方法、装置、电子设备及存储介质在审

专利信息
申请号: 202010095432.0 申请日: 2020-02-17
公开(公告)号: CN111325002A 公开(公告)日: 2020-06-23
发明(设计)人: 赵茜;胡盼盼;胡浩;周玥;谢晓婷;余梓玲;杨金辉;严彦昌 申请(专利权)人: 广东博智林机器人有限公司
主分类号: G06F40/166 分类号: G06F40/166;G06K9/62
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 刘梦晴
地址: 528311 广东省佛山市顺德区北滘镇顺江*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 生成 方法 装置 电子设备 存储 介质
【说明书】:

发明公开了一种文本生成方法、装置、电子设备及存储介质,其中,方法包括:识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;获取多个文本模板的多个关键词,并通过预先训练的隐半马尔可夫模型HSMM模型确定多个关键词对应的多个文本模板中的最优模板;通过拷贝注意力机制将多个关键词复制至最优模板中,生成最终文本。由此,解决了无法保证模板内容和数量上的多样性的同时,保证文本内容的可控性和解释性,降低文本的生成效率和实用性,降低使用体验等问题。

技术领域

本发明涉及文本处理技术领域,特别涉及一种文本生成方法、装置、电子设备及存储介质。

背景技术

相关技术中,基于模板的数据驱动型的文本生成技术主要分为以下几类方式:

(1)对于给定的文本数据集,先人工删除文案中的部分关键词,剩余的部分当作模板使用,给定输入关键词填充模板便可以生成新的文本。

(2)对句子进行聚类后,通过人工设计的规则抽象模板字段以导出模板,对模板进行关键词填充生成新的文本。

(3)基于seq2seq(序列到序列)模型生成新的文本。

然而,上述方式(1)和方式(2)无法不能保证模板内容和数量上的多样性,并且在使用模板生成文本时,由于模板内容和数量的贫乏,易导致文本生成结果的不可控性和不可解释性,即易出现给定的关键词与模板不匹配的后果,但是方式(3)seq2seq模型虽然具有encoder-decoder(编码器解码器)结构,从而可以生成样式、内容不同的文本,但是由于方式(3)为序列的形式,即文本并不是整体生成的,而是一个词接着一个词生成,生成的文本长度越长,生成的下文与上文的联系就越小,容易出现逻辑混乱现象,并且由于seq2seq模型中的参数是无法解释的,因此无法控制和解释所生成的文本内容。

发明内容

本发明提供一种文本生成方法、装置、电子设备及存储介质,以解决无法保证模板内容和数量上的多样性的同时,无法保证文本内容的可控性和解释性,降低文本的生成效率和实用性,降低使用体验等问题。

本发明第一方面实施例提供一种文本生成方法,包括以下步骤:识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;获取所述多个文本模板的多个关键词,并通过预先训练的HSMM(Hidden Semi-MarkovModels,隐半马尔可夫模型)模型确定所述多个关键词对应的所述多个文本模板中的最优模板;通过拷贝注意力机制将所述多个关键词复制至所述最优模板中,生成最终文本。

本发明第二方面实施例提供一种文本生成装置,包括:采集模块,用于识别文本数据集中文本分段的隐藏状态与文本内容,并得到组成模板的隐藏状态序列,生成多个文本模板;提取模块,用于获取所述多个文本模板的多个关键词,并通过预先训练的HSMM模型确定所述多个关键词对应的所述多个文本模板中的最优模板;生成模块,用于通过拷贝注意力机制将所述多个关键词复制至所述最优模板中,生成最终文本。

本发明第三方面实施例提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行如上述实施例所述的文本生成方法。

本发明第四方面实施例提供一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上述实施例所述的文本生成方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东博智林机器人有限公司,未经广东博智林机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010095432.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top