[发明专利]生成摘要的方法和装置有效
| 申请号: | 202010305488.4 | 申请日: | 2020-04-17 |
| 公开(公告)号: | CN111506725B | 公开(公告)日: | 2021-06-22 |
| 发明(设计)人: | 李伟;肖欣延 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/126;G06F40/186;G06F40/30 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 生成 摘要 方法 装置 | ||
本申请公开了一种生成摘要的方法和装置,涉及自然语言处理技术领域。具体实现方案为:基于对文档集中的各条语句进行编码所得到的各条语句中各个词的上下文向量表示,确定文档集的各条语句的初始输入向量表示;基于文档集中的各条语句之间的语义关系,构造文档集的结构化关系图;基于结构化关系图,对各条语句的初始输入向量表示进行上下文编码,得到各条语句的上下文向量表示;基于各条语句的初始输入向量表示、结构化关系图和各条语句的上下文向量表示,解码得到文档集的摘要文本。该方法和装置可以生成更能体现文档集中的重要内容的摘要文本,并使得到的摘要文本更加连贯、简洁,生成的摘要信息更为丰富。
技术领域
本公开涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及生成摘要的方法和装置。
背景技术
多文档自动摘要是指为多篇主题相关的文档自动生成一份简洁的摘要,要求摘要涵盖文档集的核心内容并且语义连贯、语言流畅。相对于单文档摘要,多文档摘要需要处理更长的文本输入,并且不同文档间的内容存在重复、相关或者互为补充关系。
多文档摘要可以应用于热点话题综述、搜索结果摘要、聚合写作等场景中。多文档自动摘要最常用的为抽取式摘要方法,即从文档集中抽取多个重要的句子组合成一份摘要。近年来,生成式摘要方法也受到极大关注,已有的生成式多文档摘要方法通常将多篇文档简单地拼接成单篇文档,然后利用单文档摘要模型生成摘要。还有部分多文档摘要工作采取两阶段方法,即先用抽取式方法抽取部分重要的句子,再用单文档生成式方法生成一份新的摘要。
发明内容
本公开实施例提供了生成摘要的方法和装置。
第一方面,本公开实施例提供了一种生成摘要的方法,包括:基于对文档集中的各条语句进行编码所得到的各条语句中各个词的上下文向量表示,确定所述文档集的各条语句的初始输入向量表示;基于所述文档集中的各条语句之间的语义关系,构造所述文档集的结构化关系图;基于所述结构化关系图,对所述各条语句的初始输入向量表示进行上下文编码,得到各条语句的上下文向量表示;基于所述各条语句的初始输入向量表示、所述结构化关系图和所述各条语句的上下文向量表示,解码得到所述文档集的摘要文本。
第二方面,本公开实施例提供了一种生成摘要的装置,包括:初始向量确定模块,被配置成基于对文档集中的各条语句进行编码所得到的各条语句中各个词的上下文向量表示,确定文档集的各条语句的初始输入向量表示;关系图构造模块,被配置成基于文档集中的各条语句之间的语义关系,构造文档集的结构化关系图;上下文向量确定模块,被配置成基于结构化关系图,对各条语句的初始输入向量表示进行上下文编码,得到各条语句的上下文向量表示;向量表示解码模块,被配置成基于各条语句的初始输入向量表示、结构化关系图和各条语句的上下文向量表示,解码得到文档集的摘要文本。
第三方面,本公开的实施例提供了一种电子设备/服务器/智能终端,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实施例的方法。
第四方面,本公开的实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面任一实施例中的方法。
本公开实施例提供的生成摘要的方法和装置,首先基于对文档集中的各条语句进行编码所得到的各条语句中各个词的上下文向量表示,确定文档集的各条语句的初始输入向量表示;之后,基于文档集中的各条语句之间的语义关系,构造文档集的结构化关系图;之后,基于结构化关系图,对各条语句的初始输入向量表示进行上下文编码,得到各条语句的上下文向量表示;最后,基于各条语句的初始输入向量表示、结构化关系图和各条语句的上下文向量表示,解码得到文档集的摘要文本。在这一过程中,该方法和装置可以利用文档集的结构化关系图在编码、解码过程中有效建模多文档内的语义关系,对多文档输入的重要内容进行有效地组织和改写,可以生成语义更加连贯、简洁的摘要,并且生成的摘要的信息更为丰富。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010305488.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据异地同步计划性数据恢复系统及方法
- 下一篇:一种发光器件及其制作方法





