[发明专利]摘要生成方法、装置、服务器及存储介质有效
申请号: | 201811524698.1 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109657054B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 李法远;陈思姣;罗雨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/216;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种摘要生成方法、装置、服务器及存储介质。其中,所述方法包括:对目标文本进行切句,得到句子集合;获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。本发明实施例在生成摘要时,通过结合文本的主题生成与主题相关度更高、更准确的摘要,提高摘要的重要信息覆盖能力,同时也能根据不同主题生成多样化的摘要。
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种摘要生成方法、装置、服务器及存储介质。
背景技术
当前信息严重过载,每天都有海量新闻文章生成。摘要模型通过对文章进行摘要,提取压缩文章关键信息内容,对文章进行简明扼要的表达,使得人们更加简单快捷地获取信息知识。根据摘要和原文的关系划分,摘要可以划分为抽取式摘要和生成式摘要。
传统的抽取式摘要模型主要有两大类:基于图排序模型、基于机器学习模型。然而,基于图模型排序摘要模型只考虑当前文章的全局信息,忽略了语料库的历史信息直接对句子进行重要性排序,而基于机器学习的摘要模型生成的摘要,其覆盖重要信息的能力还不够健壮。因此,现有的抽取式摘要生成方法均无法满足对生成高质量摘要的需求。
发明内容
本发明实施例提供了一种摘要生成方法、装置、服务器及存储介质,以解决现有技术中利用传统的抽取式摘要模型生成摘要时存在不足而导致生成的摘要质量低的技术问题。
第一方面,本发明实施例提供了一种摘要生成方法,包括:
对目标文本进行切句,得到句子集合;
获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
第二方面,本发明实施例还提供了一种摘要生成装置,包括:
切句模块,用于对目标文本进行切句,得到句子集合;
预测模块,用于获取目标文本对应的目标主题,利用预先训练得到的摘要模型,结合所述目标主题对所述句子集合中的每个句子进行预测,得到每个句子是摘要句的概率值;
生成模块,用于依据所述概率值从所述句子集合中选择多个摘要句,并根据所述摘要句组成目标文本的摘要。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的摘要生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的摘要生成方法。
本发明实施例提供的一种摘要生成方法、装置、服务器及存储介质,通过预先训练得到的摘要模型并结合目标文本的主题,对通过切句获得的句子集合中的句子进行预测,确定每个句子为摘要句的概率,并根据概率值选择摘要句以组成目标文本摘要。由此可实现在生成摘要时,通过结合文本的主题生成与主题相关度更高、更准确的摘要,提高摘要的重要信息覆盖能力,同时也能根据不同主题生成多样化的摘要。
附图说明
图1是本发明实施例一提供的一种摘要生成方法的流程示意图;
图2是本发明实施例二提供的一种摘要生成方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811524698.1/2.html,转载请声明来源钻瓜专利网。