[发明专利]一种基于广义K均值算法的文本多标记学习方法在审
申请号: | 201811349729.4 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109685103A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 曾理;王纯斌;赵神州;覃进学;蓝科 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35 |
代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 万利 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 字典 多标记 训练样本集 均值算法 非零 预处理 文本 学习 迭代停止条件 测试样本集 编码向量 标记向量 发生频率 分类结果 计算存储 随机挑选 索引位置 稀疏编码 原始文本 标记权 初始化 解释性 鲁棒性 维度 向量 排序 认知 挖掘 灾难 更新 | ||
1.一种基于广义K均值算法的文本多标记学习方法,其特征在于:包括以下步骤:
步骤一:预处理原始文本,得到训练样本集和测试样本集;
步骤二:根据训练样本集初始化字典D0并随机挑选K个样本,通过KSVD算法逐列更新字典D0中的样本直到满足迭代停止条件,得到欠完备字典D并将欠完备字典D中的样本作为多标记学习的标记向量;
步骤三:计算样本在欠完备字典D上的稀疏编码,以编码向量非零值索引位置的对应样本为样本多标记学习分类结果,以向量非零值大小为标记权重,完成标记排序。
2.根据权利要求1所述的一种基于广义K均值算法的文本多标记学习方法,其特征在于:所述的步骤一中预处理原始文本具体包括以下内容:
步骤101:对于中文文本,去除原始文本中非中文部分,对原始文本中的语句进行以词汇为单位的分割,所述的非中文部分包括标点、特殊符号、表情和公式;
对于英文文本,统一英文文本的大小写并去除特殊符号,然后归一化词型,将所有词型归一为同一时态语态;
步骤102:加入专有词,引入停用词表,所述停用词为对原始文本内容无关的词汇,去除停用词,采用词袋模型获取文本空间向量,计算处理后文本的TF-IDF,合并特征得到训练样本集。
3.根据权利要求1所述的一种基于广义K均值算法的文本多标记学习方法,其特征在于:所述的步骤二中初始化字典D0具体包括以下内容:
在训练样本集中随机挑选K个样本作为字典D0的样本,所述字典D0的样本为字典D0中的列向量,通过正交匹配追踪算法求取每个样本的稀疏编码xi,其中,稀疏编码xi依据以下约束:
其中,D为欠完备字典,X为稀疏编码矩阵,Y为K个样本组成的矩阵,i为1到K的自然数,T为xi中非零元素的数量。
4.根据权利要求1所述的一种基于广义K均值算法的文本多标记学习方法,其特征在于:所述的步骤二中通过KSVD算法逐列更新字典D0中的样本直到满足迭代停止条件具体包括以下步骤:
步骤201:依次更新字典D0中的样本dk,在更新时固定字典D0中的其它样本,稀疏编码矩阵X中对应dk的行为稠密向量
步骤202:记录样本稀疏编码中所有用到样本dk的样本中该样本对应的索引,并构成索引集合,通过索引集合过滤误差矩阵、稀疏编码中的零值对应位置的数据,获得去掉不受样本dk影响的样本时且不考虑dk在其影响的样本成分条件下所带来的误差以及过滤零值后的稠密向量
步骤203:对误差进行奇异值分解,计算公式为:
其中,U为左奇异值构成的矩阵,V为右奇异值构成的矩阵,Δ为以奇异值作为对角线元素,其余位置为零的与相同维度的矩阵;
将酉阵U的第一列作为dk的更新结果,将酉阵V的第一列和对角矩阵Δ的第一个特征值Δ(1,1)的乘积更新为稠密向量
步骤204:满足下列条件之一后停止训练:
1)通过正交匹配追踪算法重构样本,所述的重构样本为进行稀疏编码之后的样本,计算原样本与重构样本之间的误差,若误差小于误差阈值则停止训练,所述误差阈值的范围为千分之一至百分之一;
2)达到训练迭代次数。
5.根据权利要求1所述的一种基于广义K均值算法的文本多标记学习方法,其特征在于:所述的步骤三具体包括以下内容:
获取分类模型:以欠完备字典D中样本作为聚类中心,得到新的K个类别和标记特征向量,所述的类别与样本一一对应,所述的标记特征向量为更新后的样本dk;
获取样本标记与标记权重:通过正交匹配追踪算法求取测试样本y的稀疏编码,其中,测试样本y的稀疏编码x依据以下约束:
y=Dxsubjectto||x||0≤T
其中,T为样本可含有的标记数量。
6.根据权利要求5所述的一种基于广义K均值算法的文本多标记学习方法,其特征在于:所述的步骤三具体包括以下内容:
将最终字典作为分类模型,最终字典的样本作为标记特征向量,最终字典的样本在最终字典上的稀疏编码向量为多标记结果,该稀疏编码向量中非零元素位置的对应样本为样本对应标记,该稀疏编码向量中非零元素大小为所对应标记权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811349729.4/1.html,转载请声明来源钻瓜专利网。