[发明专利]快速提取文本摘要的方法有效
| 申请号: | 201910543097.3 | 申请日: | 2019-06-21 |
| 公开(公告)号: | CN110287309B | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 代明军;谢立;陈彬;林晓辉;苏恭超;王晖 | 申请(专利权)人: | 深圳大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/30;G06K9/62 |
| 代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 陈凯昆 |
| 地址: | 518000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 快速 提取 文本 摘要 方法 | ||
1.一种快速提取文本摘要的方法,其特征在于,包括以下步骤:
步骤S10,对待处理文档进行预处理,以形成若干条句子;
步骤S20,基于bert模型对每条句子进行映射处理,以形成与每条句子对应的句向量;
步骤S31,基于句向量计算句子间相似度,句子间相似度对应的公式为:
其中,x代表句子i的句向量,y代表句子j的句向量,m为元素下标;
步骤S32,基于句子间相似度计算相似度矩阵,相似度矩阵对应的公式为:
其中,wij指句子i与句子j的句子间相似度;
步骤S33,基于相似度矩阵和句子间相似度,计算第一句子权重矩阵,第一句子权重矩阵对应的公式为:
其中,wss代表WS矩阵前一时刻(t-1)的元素,m为元素下标,d为衰减因子;
步骤S40,根据第一句子权重矩阵确定第一预设条数的候选句子;
步骤S50,基于候选句子的位置信息和标题相似度信息,计算第二句子权重矩阵;
步骤S60,基于第二句子权重矩阵确定文本摘要。
2.如权利要求1所述快速提取文本摘要的方法,其特征在于,步骤S10具体包括:
步骤S11,对待处理文档中的标点符号进行删除处理;
步骤S12,获取待处理文档中每一句子的字数,将每一句子的字数与第一预设字数范围阈值进行对比,以形成字数属于第一预设字数范围阈值的若干句子。
3.如权利要求1所述快速提取文本摘要的方法,其特征在于,位置信息包括候选句子在待处理文档中的所在位置。
4.如权利要求1所述快速提取文本摘要的方法,其特征在于,标题相似度信息包括候选句子与标题的相似度。
5.如权利要求1所述快速提取文本摘要的方法,其特征在于,步骤S50具体包括:
步骤S51,基于候选句子在待处理文档的所在位置计算位置信息矩阵,位置信息矩阵对应的公式为:
其中,βn表示第n个候选句子的位置权重;
步骤S52,基于候选句子与标题计算标题相似度矩阵,标题相似度矩阵对应的公式为:
其中,wtn表示第n个候选句子与标题的相似度;
步骤S53,计算第二句子权重矩阵,第二句子权重矩阵对应的公式为:WS'n×1=(λWTn×1+Pn×1)×WSn×1
其中,其中λ为标题相似度矩阵的衰减系数。
6.如权利要求1所述快速提取文本摘要的方法,其特征在于,步骤S60具体包括:
步骤S61,根据第二句子权重矩阵对候选句子进行先后顺序排列;
步骤S62,从已进行先后顺序排列的候选句子中选择第二预设数量的候选句子作为文本摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910543097.3/1.html,转载请声明来源钻瓜专利网。





