[发明专利]基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置在审
| 申请号: | 202310231964.6 | 申请日: | 2023-03-10 |
| 公开(公告)号: | CN116186246A | 公开(公告)日: | 2023-05-30 |
| 发明(设计)人: | 孙鹤立;黄小勇;褚旭光;何亮;何晖 | 申请(专利权)人: | 西安交通大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/284;G06F18/22 |
| 代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 房鑫 |
| 地址: | 710049 陕*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 pegasus 实体 舆情 文本 摘要 生成 方法 相关 装置 | ||
基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置,包括:获取舆情文本作为训练数据,并对训练数据进行预处理;对预处理后的训练数据进行二次处理,得到伪摘要,对伪摘要进行分词得到实体词;通过串联实体词得到摘要实体链,将摘要实体链与伪摘要进行合并作为标签数据;将训练数据与标签数据送入PEGASUS中进行训练;训练后的模型,先基于输入文本生成实体链,再基于输入文本与实体链生成摘要,计算摘要的忠实度与多样性得分,选择最优的摘要作为最终输出。本发明提高舆情文本摘要自动生成的多样性与忠实度,解决生成舆情文本摘要多样性不足、内容幻觉与实体退化的问题。
技术领域
本发明属于互联网信息服务技术领域,涉及基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置。
背景技术
近年来,随着互联网各类应用中对用户生成内容功能的支持,尤其是互联网社交网络、博客、微博等信息发布平台的兴盛,个人表达自己观点的渠道日益畅通,手段日益便捷。然而,在网络舆情事件发生时,公众对事件所持有的情绪、意见、态度以文本的形式,在较短的时间内快速表达出来,互联网上的文本数据数量快速攀升,客观、准确地知晓公众对舆情事件的情绪、意见、态度迫在眉睫。为了在舆情事件发生时,在海量的互联网数据中准确地找到有效的信息,对各类文本进行一个“降维”处理显得非常必要,文本摘要便是其中一个重要的手段。目前文本摘要按照输出类型可分为抽取式摘要和生成式摘要:抽取式文本摘要和生成式文本摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。
抽取式方法从原文中选取关键词、关键句组成摘要。这种方法天然的在语法、句法上错误率低,保证了一定的效果。传统的抽取式摘要方法使用图方法、聚类等方式完成无监督摘要,包括Lead-3、textrank。当下流行的有监督摘要的方法,一种是先提取词语、句子级别的各类特征,比如句子的长度、位置、句子中的词语的TF-IDF值等等,然后利用机器学习的算法对句子进行抽取。或者是基于神经网络的抽取式摘要往往将问题建模为序列标注和句子排序两类任务。
抽取式摘要虽然在语法、句法上有一定的保证,但是也面临了一定的问题,例如:内容选择错误、连贯性差、灵活性差等问题。生成式摘要,它试图通过理解原文的意思来生成摘要,可能会用原文中的词,也可能会用新词来做表述,相比于抽取式而言用词更加灵活。近年来,随着大规模语言模型的广泛应用,生成式文本摘要技术在忠实度、流利度方面有了一定提升,但在多样性方面略显不足,并且容易产生内容幻觉与实体退化。
发明内容
本发明的目的在于提供基于PEGASUS与实体链的舆情文本摘要生成方法及相关装置,以解决生成舆情文本摘要多样性不足、内容幻觉与实体退化的问题。
为实现上述目的,本发明采用以下技术方案:
本发明第一方面,提供基于PEGASUS与实体链的舆情文本摘要生成方法,包括:
获取舆情文本作为训练数据,并对训练数据进行预处理;
对预处理后的训练数据进行二次处理,得到伪摘要,对伪摘要进行分词得到实体词;
通过串联实体词得到摘要实体链,将摘要实体链与伪摘要进行合并作为标签数据;
将训练数据与标签数据送入PEGASUS中进行训练;
PEGASUS,全称Pre-training with Extracted Gap-sentences for AbstractiveSummarization,针对文本摘要任务设计了无监督预训练任务(称为Gap SentenceGeneration),随机遮盖文档中的几个完整句子,使用Transformer编码器-解码器模型生成被遮盖的句子,该预训练任务与实际文本摘要任务匹配。
训练后的模型,先基于输入文本生成实体链,再基于输入文本与实体链生成摘要,计算摘要的忠实度与多样性得分,选择最优的摘要作为最终输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310231964.6/2.html,转载请声明来源钻瓜专利网。





