[发明专利]一种使用Entity显式图的生成式多文档摘要方法在审
| 申请号: | 202210818286.9 | 申请日: | 2022-07-12 |
| 公开(公告)号: | CN115293143A | 公开(公告)日: | 2022-11-04 |
| 发明(设计)人: | 沈志东;薛宜可 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/186;G06F40/194;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
| 地址: | 430072 湖北省武*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 使用 entity 显式图 生成 文档 摘要 方法 | ||
本发明针对现有技术的不足,提供一种使用Entity显式图的生成式多文档摘要方法。采用了基于SimBert的Entity图来代替传统的文档相似度构图来表达文档间的联系,对各个段落进行Entity抽取,每段的Entity拼接为一句话,之后使用SimBert计算所有段落之间的余弦相似度,经过阈值过滤,得到表示段落联系的显式图,基于神经网络且针对文档内实体的构图方式效果会优于人为定义的不灵活的规则。另外,本发明对图感知的注意力机制和层次化图注意力机制做出了改进,引入了门控机制和残差连接,使得显式图和隐式图信息能够更好的融合,并且给注意力机制学习到的隐式关系保留了残差通路,以确保网络学习到的信息占有更重要的地位,以此来指导生成式多文档摘要。
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种使用Entity显式图的生成式多文档摘要方法。
背景技术
随着社会的飞速发展,网络中各种数据的数量呈指数级增长,互联网为人类提供了很多便捷的服务,同时信息的形式也变得越来越多样,除了文本之外还有图像、音频、视频等,然而由于文本传输代价相对较小,传播最广的还是文本形式。文本的价值并非在于数量而是在于对文本数据的吸收提炼,由于数据量的飞速增长,分析和理解文本已经成为了一件非常繁琐的任务。从读者的角度看,即使是通过搜索引擎进行初步过滤,得到的仍是过量的信息,在海量的文本数据中获取显著信息是一件劳动密集型的工作。由此,人们产生了自动化处理提炼文本数据的需求,这使得机器需要在大量数据的帮助下训练学习人类理解处理文本信息的能力,也就是本文所研究的自动文本摘要技术,它又被称为自动文摘。
自动文本摘要技术是自然语言处理的一个重要分支。身处信息爆炸的时代,人们亟需数据减负,而如果凭借人工去做明显是一件不可完成的任务,自动摘要通过给信息做减法解决信息过载的困境。自动摘要技术可以将包含同一主题的文本或文本集合自动转换为包含核心语义信息的简明摘要,过滤掉冗余信息,反映内容关键点,摘要的长度明显少于原文。自动文本摘要的意义不仅在于帮助普通用户快速提取信息,同时它也可以帮助许多下游的人工智能应用,比如创建新闻摘要、生成报告,另外该技术在信息检索(IR)、数据挖掘等任务中也有辅助的作用。
自动文本摘要任务发展至今已有70多年。目前,自动文本摘要任务有了更广阔的应用空间,不仅仅是狭义的文本摘要,而是包括多源数据结构的“文本”摘要,比如从视频、音频等格式中获取摘要,虽然该领域已经有了不少成果,但相比于人工摘要的质量仍有一定差距。
根据输入文档数量分类,文本摘要可分为单文档摘要和多文档摘要。多文档摘要要比单文档摘要更复杂、更难处理,这是因为在多文档摘要任务中,文档之间的信息更加多样且相互冲突。文档的数量通常比较多,文档之间的关系也比较复杂,在如此庞大的文档数量中,文档之间必然存在着相互补充、重叠和冲突的现象。此外,过长的输入文档常常导致模型退化。在生成连贯的、不冗余的、不出现事实错误并且语法可读的摘要的同时,模型还要保留复杂输入序列中最重要的内容是一个重大挑战。因此,多文档摘要要求模型具有更强的分析语料库、识别和合并一致信息的能力。
现有的多文档摘要方法存在生成效果不佳的技术问题。
发明内容
本发明针对现有技术的不足,提供一种使用Entity显式图的生成式多文档摘要方法。本发明提出了一种基于SimBert的Entity图来代替传统的文档相似度构图来表达文档间的联系,对各个段落进行Entity抽取,每段的Entity拼接为一句话,之后使用SimBert计算所有段落之间的余弦相似度,经过阈值过滤,得到表示段落联系的显式图,基于神经网络且针对文档内实体的构图方式效果会优于人为定义的不灵活的规则。另外,本发明对图感知的注意力机制和层次化图注意力机制做出了改进,引入了门控机制和残差连接,使得显式图和隐式图信息能够更好的融合,并且给注意力机制学习到的隐式关系保留了残差通路,以确保网络学习到的信息占有更重要的地位,以此来指导生成式多文档摘要。
本发明采用的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210818286.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种体征数据获取方法、装置及存储介质
- 下一篇:一种防水烤粉及其制备方法





