[发明专利]基于主题模型的文本摘要方法、装置及存储介质在审
| 申请号: | 202111145727.5 | 申请日: | 2021-09-28 |
| 公开(公告)号: | CN113901200A | 公开(公告)日: | 2022-01-07 |
| 发明(设计)人: | 范凌;王喆 | 申请(专利权)人: | 特赞(上海)信息科技有限公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/186;G06F40/211;G06F40/30;G06V10/764 |
| 代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 李志刚;高科 |
| 地址: | 200000 上海市浦东新区中国*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 主题 模型 文本 摘要 方法 装置 存储 介质 | ||
本发明提供一种基于主题模型的文本摘要方法、装置及存储介质,包括:基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文本句法层面的第一中间语义向量;将所述第一中间语义向量输入至主题模型中,得到主题向量;根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。利用由主题模型和seq2seq序列模型组成的联合学习网络,能够学习和保留全局语义信息,以及可以提供额外的语义指导来抓取文档重要语义信息,有助于捕获文本的语义信息作为关键信息来对解码器端的文本摘要生成进行指导,使得生成的文本摘要更贴合输入文档的语义信息。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于主题模型的文本摘要方 法、装置及存储介质。
背景技术
在当今的数字经济中,我们每天面临着大量的信息输入,伴随而来的是信息 过载,这对于高效的信息消费形成了挑战,如何对海量的文本实现信息内容的浓 缩和概括则成为了必要的研究课题。从较长的文本自动生成简短而连贯的片段和 准确而简洁的摘要对许多下游任务都非常关键,比如一些信息检索和推荐系统。 同时,通过算法的自动总结也可以减少用户的阅读时间,使用户的选择过程更容 易,检索更有效,增加消费者能处理的文本数量。此外,通过摘要式的模型由于 是基于训练语料,所以在预测生成阶段采取的是近乎统一的评价,相比于人工书 写的摘要更加的客观。
现有的文本摘要主要分为两种方式,抽取式摘要:直接从文本中抽取一些拼 接成新的文本摘要,不会修改任何单词;总结式摘要:通过对文本内容的理解直 接将原始的大段文本从新概括的总结成简短的文本内容,产生全新的短语和句子, 源于逐字捕捉原文的内容并重新生成新的摘要,这是一个更具挑战性的工作但是 却与人类总结文本摘要的形式一致,也更为通用。本方法也是在此类方向上的探 索实现。无论是哪种摘要任务,通常采取的都是seq2seq的结构,即序列到序列 的结构,输入一段文本,输出一段文本,在这个模型中关键的一个因素就是我们 如何表达和编码一段输入文本。传统的方式我们通过总结方法和自注意力模型方 法来实现这个过程。
总结类方法就是探索文本的潜在表征,并将这些表征作为输入文本的解码序 列输入解码器,这种方法有以下几个缺点:
(1)由于强调文本的潜在表征进行提取,并默认这些表征的相互交互都必 须是相关的,但在现实中这种情况并不能保证,因为文本信息中可能会存在噪声 点;
(2)只有当文本中的组内或集成信息的独立性被忽略时才能较好提取文本 的离散信息,不能解决输入文本的信息重要性之间可能存在不均衡的问题。
针对以上缺点,基于序列的注意力机制应运而生,这种方法可以通过学习的 注意力方式去处理文本中的不同信息,尤其以transformer架构中的self- attention最为常见,能很好的捕捉到文本中不均衡的短时序和长时序的文本信 息,但是这种方法也有缺点:self-attention这种自注意力方法可以在句法层面 上很好的捕捉上下文表征信息,但是却丢失了文本的语义层面的信息,这可能会 降低seq2seq序列模型的表现效果,特别是对于摘要任务。
因此,亟需解决上述现有的文本摘要所存在的技术问题。
发明内容
本发明实施例提供一种基于主题模型的文本摘要方法、装置及存储介质,用 以解决现有的文本摘要技术中所存在的文本信息中可能会存在噪声点、输入文本 的信息重要性之间可能存在不均衡以及丢失文本的语义层面的信息的技术问题。
本发明实施例的第一方面,提供一种基于主题模型的文本摘要方法,包括:
基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文 本句法层面的第一中间语义向量;
将所述第一中间语义向量输入至主题模型中,得到主题向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于特赞(上海)信息科技有限公司,未经特赞(上海)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111145727.5/2.html,转载请声明来源钻瓜专利网。





