[发明专利]一种基于bi-kmeans的文献摘要生成方法及系统在审
| 申请号: | 202211304982.4 | 申请日: | 2022-10-24 |
| 公开(公告)号: | CN115858769A | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 吕黔苏;张自锋;喇元;王宏;林正平;范强 | 申请(专利权)人: | 贵州电网有限责任公司;南方电网科学研究院有限责任公司 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/166;G06F40/284;G06N20/00 |
| 代理公司: | 南京禹为知识产权代理事务所(特殊普通合伙) 32272 | 代理人: | 周局 |
| 地址: | 550002 贵*** | 国省代码: | 贵州;52 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 bi kmeans 文献 摘要 生成 方法 系统 | ||
本发明公开了一种基于bi‑kmeans的文献摘要生成及系统,包括进行对于文本的预处理操作,对于文献数据集的特征进行表示与选择,基于处理好的数据样本对bi‑kmeans算法进行模型训练,对于模型训练后的数据文件进行保存。基于bi‑kmeans的文献摘要生成方法只需要4s就可以进行一篇准确度高达92%的文献摘要,能够以传统Abstractive抽取式算法三分之一的生成速度实现相对更高的文献摘要准确度。
技术领域
本发明涉及知识算法技术领域,特别是一种基于bi-kmeans的文献摘要生成方法及系统。
背景技术
由于文献数量庞大,而人工标注成本极高,因此文献的分类往往面临着标注瓶颈问题,并伴随着严重的类别不平衡现象,同时由于文献产生和更新的速度快,其分布特征不断地变化,会导致现有的训练模型泛化性能下降。
文献摘要的知识算法技术领域,原有的选择方法是简单的二分计算筛选,这种筛选技术算法很容易产生文献摘要的错漏与误判,容易使得部分文献摘要无法被正确选取,并会出现较多的生成时间,既会造成生成成本提高,同时也会造成效率的降低。因此知识算法技术领域需要一种成本较低,效率较高,准确率较高的文献摘要生成方法。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述和/或现有的一种基于bi-kmeans的文献摘要生成方法中存在的问题,提出了本发明。
因此,本发明所要解决的问题在于如何提供一种基于bi-kmeans的文献摘要生成方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于bi-kmeans的文献摘要生成方法,其包括:
进行对于文本的预处理操作;
对于文献数据集的特征进行表示与选择;
基于处理好的数据样本对bi-kmeans算法进行模型训练;
对于模型训练后的数据文件进行保存。
作为本发明所述基于bi-kmeans的文献摘要生成方法的一种优选方案,其中:所述文本的预处理包括解析、分析与去停用词操作;
所述预处理的流程是
读取文件;
通过jieba分词系统进行对于文本数据进行分词效果;
去停用词;
输出特征词列表;
所述jieba分词系统是一款Python第三方中文分词库;
所述停用词是基于中文停用词库所展示的无用的字词。
作为本发明所述基于bi-kmeans的文献摘要生成方法的一种优选方案,其中:所述特征表示与选择是利用bi-kmeans算法进行对于文本数据特征处理;
所述bi-kmeans算法是二进Kmeans算法。
作为本发明所述基于bi-kmeans的文献摘要生成方法的一种优选方案,其中:所述模型训练阶段包括:
加载被处理后的数据样本;
设置SVM参数;
根据设计好的算法与既定参数进行算法训练;
所述SVM参数是float系数,即错误项的惩罚系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司;南方电网科学研究院有限责任公司,未经贵州电网有限责任公司;南方电网科学研究院有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211304982.4/2.html,转载请声明来源钻瓜专利网。





