[发明专利]多语言摘要的生成方法、装置、电子设备及计算机可读介质有效
申请号: | 202110132073.6 | 申请日: | 2021-01-31 |
公开(公告)号: | CN112836040B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 王亦宁;刘升平;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/126;G06F40/289;G06F40/44 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 摘要 生成 方法 装置 电子设备 计算机 可读 介质 | ||
本发明涉及一种多语言摘要的生成方法、装置、电子设备及计算机可读介质。该方法包括:将源语言文档输入编码器中,生成词序列编码;将所述词序列编码分别输入第一解码器和第二解码器中进行解码;所述第一解码器和所述第二解码器进行交互式解码以生成源语言摘要编码和目标语言摘要编码;基于所述源语言摘要编码和所述目标语言摘要编码生成源语言摘要文档和目标语言摘要文档。本发明涉及的多语言摘要的生成方法、装置、电子设备及计算机可读介质,能够充分利用跨语言摘要中源语言的摘要信息,在解码端层面上实现了不同语言信息的交互和融合,从而提升跨语言摘要的生成质量。
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种多语言摘要的生成方法、装置、电子设备及计算机可读介质。
背景技术
跨语言自动摘要是一项对源语言文本核心信息进行内容归纳,以目标语言的形式组织成摘要的任务。跨语言摘要可将一篇源语言文档(例如,中文)生成另外一种语言(例如,日文)的摘要结果。跨语言自动摘要方法研究对于跨境电商、舆情分析和内容推荐等应用场景具有重要意义。由于平行数据的缺失,大多数已有的跨语言自动摘要方法只能基于管道式方法实现,造成严重的误差传播问题,使得摘要质量受到极大的制约。
为缓解此问题,研究人员开始尝试构建跨语言自动摘要平行数据,其中较为典型的方法有基于多任务学习的方法,该方法在多任务学习框架基础上,利用单语言自动摘要、机器翻译的数据提升跨语言自动摘要模型的性能,取得了相当良好的性能。然而,基于多任务学习的方法存在依赖外部数据、模型容量较大且需要很长的训练时间等缺陷,使其难以应用于真实场景。
因此,需要一种新的多语言摘要的生成方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种多语言摘要的生成方法、装置、电子设备及计算机可读介质,主要解决跨语言摘要中不同语言的信息没有有效利用的问题,能够充分利用跨语言摘要中源语言的摘要信息,在解码端层面上实现了不同语言信息的交互和融合,从而提升跨语言摘要的生成质量。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种多语言摘要的生成方法,该方法包括:将源语言文档输入编码器中,生成词序列编码;将所述词序列编码分别输入第一解码器和第二解码器中进行解码;所述第一解码器和所述第二解码器进行交互式解码以生成源语言摘要编码和目标语言摘要编码;基于所述源语言摘要编码和所述目标语言摘要编码生成源语言摘要文档和目标语言摘要文档。
在本发明的一种示例性实施例中,还包括:获取由源语言生成的文档数据;对所述文档数据进行预处理以生成所述源语言文档。
在本发明的一种示例性实施例中,将源语言文档输入编码器中,生成词序列编码,包括:获取源语言文档中的词序列;对所述次序列进行亚词切分,生成亚词序列;将所述亚词序列输入编码器中以生成所述词序列编码。
在本发明的一种示例性实施例中,将所述词序列编码分别输入第一解码器和第二解码器中进行解码之前,还包括:根据所述源语言文档确定所述第一解码器;根据所述目标语言确定所述第二解码器。
在本发明的一种示例性实施例中,将所述词序列编码分别输入第一解码器和第二解码器中进行解码,包括:将所述词序列编码输入处于初始状态的第一解码器;将所述词序列编码输入处于初始状态的第二解码器。
在本发明的一种示例性实施例中,所述第一解码器和所述第二解码器进行交互式解码以生成源语言摘要编码和目标语言摘要编码,包括:根据所述第一解码器的输入、隐层状态和所述第二解码器的隐层状态生成所述源语言摘要编码;根据所述第二解码器的输入、隐层状态和所述第一解码器的隐层状态生成所述目标语言摘要编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110132073.6/2.html,转载请声明来源钻瓜专利网。