[发明专利]快速提取文本摘要的方法有效
申请号: | 201910543097.3 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110287309B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 代明军;谢立;陈彬;林晓辉;苏恭超;王晖 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30;G06K9/62 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 陈凯昆 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 快速 提取 文本 摘要 方法 | ||
本发明公开了一种快速提取文本摘要的方法,包括以下步骤:步骤S10,对待处理文档进行预处理,以形成若干条句子;步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;步骤S30,进行迭代计算以获取第一句子权重矩阵;步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;步骤S60,基于第二句子权重矩阵确定文本摘要。本发明,实现快速提取文本摘要,且所提取的文本摘要能显著反应文本的真实语义,保证提取的效果。
技术领域
本发明属于文字处理技术领域,尤其涉及一种快速提取文本摘要的方法。
背景技术
目前,现有的对于文本摘要的方法很多,比如第一个方法,基于词频-逆文档词频(TF-IDF)的文本摘要方法,其原理是该方法认为的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。而自动摘要就是要找出那些包含信息最多的句子。句子的信息量用”关键词”来衡量。如果包含的关键词越多,就说明这个句子越重要。而关键词的提取则是利用本身文档的词频与语料库中其他文档的逆词频相结合,得到关键词群。再利用关键词群去判断文档中各个句子的重要性。
上述TFIDF算法提取关键词的效果严重依赖语料库,需要选取质量较高且和所处理文本相符的语料库进行训练。另外,对于I DF来说,本身倾向于文本中频率小的词,这使得TF-IDF算法的精度不高。TF-IDF不能反应词的位置信息,在对关键词进行提取的时候,词的位置信息,例如文本的标题、文本的首句和尾句等含有较重要的信息,应该赋予较高的权重。同时逆词频(I DF)是一种强烈依赖词频统计的方法,单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用,并且认定重要句子就应该包括更多的关键词,这对于大部分文本信息,并不是完全正确的。与此同时TF-I DF算法也未将语义信息考虑进去。所以其抽取句子组合成的文摘效果并不好,关联性低。
因此,现有技术有待于改善。
发明内容
本发明的主要目的在于提出一种快速提取文本摘要的方法,旨在解决背景技术中所提及的技术问题,实现快速提取文本摘要,且所提取的文本摘要与文本的标题关联性高,保证提取的效果。
本发明的快速提取文本摘要的方法,包括以下步骤:
步骤S10,对待处理文档进行预处理,以形成若干条句子;
步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;
步骤S30,进行迭代计算以获取第一句子权重矩阵;
步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;
步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;
步骤S60,基于第二句子权重矩阵确定文本摘要。
优选地,步骤S10具体包括:
步骤S11,对待处理文档中的标点符号进行删除处理;
步骤S12,获取待处理文档中每一句子的字数,将每一句子的字数与第一预设字数范围阈值进行对比,以形成字数属于第一预设字数范围阈值的若干句子。
优选地,步骤S30具体包括:
步骤S31,基于句向量计算句子间相似度,句子间相似度对应的公式为:
其中,x代表句子i的句向量,y代表句子j的句向量,m为元素下标;
步骤S32,基于句子间相似度计算相似度矩阵,相似度矩阵对应的公式为:
其中,wij指句子i与句子j的句子间相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910543097.3/2.html,转载请声明来源钻瓜专利网。