[发明专利]一种基于bi-kmeans的文献摘要生成方法及系统在审

专利信息
申请号: 202211304982.4 申请日: 2022-10-24
公开(公告)号: CN115858769A 公开(公告)日: 2023-03-28
发明(设计)人: 吕黔苏;张自锋;喇元;王宏;林正平;范强 申请(专利权)人: 贵州电网有限责任公司;南方电网科学研究院有限责任公司
主分类号: G06F16/34 分类号: G06F16/34;G06F16/35;G06F40/166;G06F40/284;G06N20/00
代理公司: 南京禹为知识产权代理事务所(特殊普通合伙) 32272 代理人: 周局
地址: 550002 贵*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bi kmeans 文献 摘要 生成 方法 系统
【权利要求书】:

1.一种基于bi-kmeans的文献摘要生成方法,其特征在于包括:

进行对于文本的预处理操作;

对于文献数据集的特征进行表示与选择;

基于处理好的数据样本对bi-kmeans算法进行模型训练;

对于模型训练后的数据文件进行保存。

2.如权利要求1所述的基于bi-kmeans的文献摘要生成方法,其特征在于:所述文本的预处理包括解析、分析与去停用词操作;

所述预处理的流程是

读取文件;

通过jieba分词系统进行对于文本数据进行分词效果;

去停用词;

输出特征词列表;

所述jieba分词系统是一款Python第三方中文分词库;

所述停用词是基于中文停用词库所展示的无用的字词。

3.如权利要求1或2所述的基于bi-kmeans的文献摘要生成方法,其特征在于:所述特征表示与选择是利用bi-kmeans算法进行对于文本数据特征处理;

所述bi-kmeans算法是二进Kmeans算法。

4.如权利要求3所述的基于bi-kmeans的文献摘要生成方法,其特征在于所述模型训练阶段包括:

加载被处理后的数据样本;

设置SVM参数;

根据设计好的算法与既定参数进行算法训练;

所述SVM参数是float系数,即错误项的惩罚系数。

5.如权利要求1、2和4任一所述的基于bi-kmeans的文献摘要生成方法,其特征在于所述bi-kmeans算法的计算公式是:

f(x)=w·x+c

其中w是法向量,c是位移相,基于该函数计算,目标函数计算公式为,

s.t.yi((w·xi)+c)≥1-μ,i=1,2,...,n

μ≥0,i=1,2,...,n

其中,μ是松弛变量,n表示的样本个数,d表示的是惩罚因子。

6.如权利要求5所述的基于bi-kmeans的文献摘要生成方法,其特征在于所述模型训练示将目标函数计算加入一个目标函数的监督迭代后再进行训练,其计算方式为:

其中Acc是测量经验误差,X是分布P上定义的一个实例空间,S=(q1,...,qn)是bi-kmeans算法所有的簇,XL,XQ1,XQ2是L,Q1,Q2的标签向量,XQ1′和XQ2′分别表示Q1,Q2的伪标签向量,P(y丨x;Φ)和P(y丨x;Λ)分别表示bi-kmeans算法与SVM的预测概率。

7.如权利要求6所述的基于bi-kmeans的文献摘要生成方法,其特征在于:所述数据文件保存是将模型训练后的数据根据实际预测情况,在本地文件夹中进行保存。

8.一种基于bi-kmeans的文献摘要生成系统,其特征在于:包括预处理模块(100),特征处理模块(200),算法学习模块(300),文本分类模块(400);

所述预处理模块(100)用于源代码解析、分词与去停用词;

所述特征处理模块(200)用于特征表示和特征选择;

所述算法学习模块(300)用于基学习器、协同训练与融合算法;

所述文本分类模块(400)用于文本保存。

9.如权利要求8所述的基于bi-kmeans的文献摘要生成系统,其特征在于:所述预处理模块(100)的源代码解析流程是将网页爬取的源代码进行定向解析成本系统能够训练的数据模型。

10.如权利要求8或9任一所述的基于bi-kmeans的文献摘要生成系统,其特征在于:所述算法学习模块(300)包括基学习器、协同训练与融合算法功能;

所述基学习器是将被特征处理模块(200)特征选择后的数据转化成代码能够识别的格式;

所述协同训练是基于设定好的参数与相对应的算法进行训练;

所述融合算法是当出现预定结果与实际结果不同时,通过融合算法进行现实结果算法流程监督。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司;南方电网科学研究院有限责任公司,未经贵州电网有限责任公司;南方电网科学研究院有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211304982.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top