[发明专利]文本摘要生成方法、装置、计算机设备及存储介质有效
申请号: | 202110679639.7 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113254593B | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 李夏昕 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/34;G06F40/211;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 李翔宇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 摘要 生成 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及人工智能领域,提供一种文本摘要生成方法、装置、计算机设备及存储介质,能够有效克服传统TextRank算法在计算纯文本相似度时,没有区分不同词条的重要性,也没有按词性过滤掉不重要的词的缺陷,提升了业务关联性强的句子被选为摘要的可能性,在建模的过程中充分考虑了句子前后邻近关系以及它们在原文章中的位置,有效克服了传统方式中由于未考虑句子在文章中位置顺序的重要性而导致的文本摘要生成不准确的问题,在传统文本摘要生成的基础上加入了后处理,对图算法获取的摘要结果做修正,提升了最终输出的摘要质量,进而基于人工智能手段实现更加准确的文本摘要生成。本发明还涉及区块链技术,摘要句子可以存储于区块链节点上。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本摘要生成方法、装置、计算机设备及存储介质。
背景技术
文本摘要技术是人工智能领域的重要技术。对于人类来说,阅读一段长文本,并提炼其核心摘要内容,是一种天生的能力。但对于计算机来说,却代表了人工智能领域最具挑战性技术的进展和突破。当今世界的互联网承载了海量的文本信息,其中不乏大量的中、长篇幅文本。通过机器对这些文本加以理解,并提炼出核心摘要,可以支持各类有益于人类社会的应用功能,如:媒体监控、搜索引擎营销和优化、财务和法务文本分析研究、社交媒体营销、书籍和文献内容索引、视频会议摘要、自动内容创作等。
现有的文本摘要技术可以被横向分为有监督和无监督两种,被纵向分为抽取式和生成式两种。有监督的文本摘要技术需要大量的人工标记数据,文本摘要的人工标记十分费力且成本高昂,不同标记人员对文章核心摘要内容的判断也存在一定偏差,因此工业界技术落地一般采用无监督的方案。抽取式摘要一般以句子为单位从原文章中抽取出重要内容,再拼接起来作为文章摘要。生成式摘要通过深度学习seq2seq(Sequence to Sequence)方式直接生成文章摘要内容,其中涉及到语义表征、推断和自然语言生成等很难落地的技术,因此,生成式摘要更多的是作为学术界的研究热点,在工业界落地效果并不理想。
目前,工业界文本摘要技术落地最常采用的是无监督抽取式方案,具体的方法有基于图、基于主题模型、基于中心度和基于信息冗余等方法。其中,基于图的TextRank算法是最经典且应用最广泛的方法。TextRank算法具有较好的通用性,适合各种领域的文本以及中篇和长篇文本,但是也具有一些缺陷:(1)TextRank算法中两图节点的连边是单条无向边,这条边只有单一权重,从这单条无向边来看,两端节点句子的权值是相等的。但文章中的任意两个句子单独拿出来比较,他们的重要程度也应该有高低之分;(2)TextRank算法中,图中任意两个节点都有一条连边,相当于把文章中所有的句子混在一起建模,没有考虑句子前后邻近关系以及它们在原文章的位置。但提取摘要时,句子的位置和句子的前后关系都对摘要句的判定有重要作用,比如文章或段落起头和结尾的句子,以及总结性的句子,都很可能是摘要句;(3)TextRank算法在计算图中连边的权重时,只考虑两个句子之间的纯文本相似度,没有考虑语义相似度,即没有考虑文本写法不一样但语义类似的情况;(4)TextRank算法在计算纯文本相似度时,没有区分不同词条的重要性,也没有按词性过滤掉不重要的词,因此对纯文本相似度计算的准确性有待提升。
上述缺陷会导致最终的文本摘要生成效果受到影响,并且,现有的文本摘要生成技术也缺乏对所生成摘要的修正,而TextRank算法输出的摘要结果一般也存在一些问题,导致生成的摘要并不理想。
发明内容
本发明实施例提供了一种文本摘要生成方法、装置、计算机设备及存储介质,能够基于人工智能手段实现更加准确的文本摘要生成。
第一方面,本发明实施例提供了一种文本摘要生成方法,其包括:
响应于文本摘要生成指令,根据所述文本摘要生成指令获取待处理数据;
根据任务场景获取词典对所述待处理数据进行切分处理,得到多个分句;
计算所述多个分句中每两个分句间的相互推荐度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110679639.7/2.html,转载请声明来源钻瓜专利网。