[发明专利]一种利用预训练模型的吉布斯受限文本摘要生成方法有效
申请号: | 202110672338.1 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113407711B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 纪禄平;杨凡;陈香 | 申请(专利权)人: | 成都崇瑚信息技术有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/216;G06F40/289;G06F18/2132;G06N3/0455;G06N3/047;G06N3/082 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 李英 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 训练 模型 吉布斯 受限 文本 摘要 生成 方法 | ||
本发明涉及文本摘要技术领域,涉及一种利用预训练模型的吉布斯受限文本摘要生成方法,其利用模型进行训练和生成文本摘要,训练如下:1)对文本源序列进行词向量化,加入相对位置编码,得到文本Word Embedding;2)利用注意力机制和Bi‑LSTM来提取特征,训练模型,微调模型,得到编码器的输出;3)加入相对位置编码,得到目标序列Word Embedding;4)解码器端参数和Transformer的保持一致;5)将Attention矩阵输入全连接层,然后计算得到词汇表的概率表示;6)解码器端融入LDA模型进行关键词提取,结合Gibbs采样算法来提取生成摘要。本发明能较佳地生成文本摘要。
技术领域
本发明涉及文本摘要生成技术领域,具体地说,涉及一种利用预训练模型的吉布斯受限文本摘要生成方法。
背景技术
在当今网络高度发达的大背景下,互联网上每天都会产生数以亿计的数据流量,铺天盖地的信息流充斥着我们的生活,如何从信息流中提取我们需要的信息至关重要。自2012年移动互联网进入高速发展阶段以来,文本信息量呈井喷式、指数级、爆炸性增长,庞大的文本信息使得人们在网络上浏览时花费大量时间,极大提高了用户的阅读成本和获取重要信息的成本。如何解决从过量信息中快速提取文本数据中的关键信息,已经成为各行业的迫切需要。文本摘要是一篇文章的核心内容的简要表述,可以提高用户从海量数据中查找和阅读的效率,但是传统摘要都是由人工提取生成,成本过高且效率低下,由此自动文本摘要技术应运而生。
自动文本摘要技术的出现可以有效缓解该问题,作为自然语言处理和人工智能领域的重要研究内容之一,自动文本摘要可以利用计算机自动地从长文本或文本集合中提炼出一段能准确反映原文中心内容的简洁连贯的短文。自动文本摘要是人们利用机器理解人类语言的重要技术手段,是自然语言处理的重要任务之一,其研究价值重大,意义深远。一个好的摘要往往包含三个特点:
(1)简洁性概括。对于短文本而言,摘要长度一般不超过原文的一半或者更少。对于长文本而言,摘要往往也不超过其三分之一。
(2)阐述重要性。摘要一般要涵盖文本重要信息,方可表达原文本的中心思想。
(3)冗余度消除。好的生成摘要不应该啰嗦,是对原文重要信息的简要概述,好的算法生成的摘要应该消除重复冗余的文本。
自动文本摘要是利用计算机实现自动文本分析、内容总结和摘要生成的技术,是解决目前信息过剩的一种重要手段,能够帮助人类快速、准确、全面的从文本中获取关键信息,目前在文档摘要生成、舆论舆情监督、新闻标题生成以及复杂问题问答等方面取得了广泛的应用,在商业和政务服务上面都具有重要的实际应用意义。主要分为抽取式方法和生成式方法两种形式。
抽取式文本摘要方法(Extractive Text Summarization Method)主要是通过概率统计学原理统计并分析文本的特征,挖掘文本的潜意语义信息等。主要是利用相关算法或者语言模型对输入文本进行模型训练,然后运用概率学知识选取和抽取源文本中相关短语和句子,重新组合成新的句子或者段落,从而生文本成摘要。基于抽取式的文本摘要的主要步骤分为:
(1)内容选择。主要基于统计学特征或者语言模型实现。
(2)信息排序。一般是计算词语的词频或者句子的互信息重要性来进行排序。
(3)根据重要性构建句子,输出摘要。
抽取式摘要生成方法是一种简单、直接的文本摘要生成方法。其核心在于内容选择,尽管对于关键内容的选择较难,但是更易于实现。另外,句子连贯性通常较差,很难保证摘要的连贯性,但由于句子都是直接从原文中抽取得到,就不会出现过多的重复文本,基本能够理解到其含义,句子的可读性较好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都崇瑚信息技术有限公司,未经成都崇瑚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672338.1/2.html,转载请声明来源钻瓜专利网。