[发明专利]一种基于KNN的文本分类方法有效
申请号: | 201610288920.7 | 申请日: | 2016-05-04 |
公开(公告)号: | CN105975573B | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 冯素梅;赵云飞;张亚栋;江国进;白涛;王晓燕;宁祾;程建明 | 申请(专利权)人: | 北京广利核系统工程有限公司;中国广核集团有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100094 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于KNN的文本分类方法,适用于核安全级软件验证和可靠性验证。本发明的文本分类方法包括训练过程处理和测试过程处理,将训练样本数据集以原始文本自身和文本中所有的标题两部分的信息来表示。依据文本由浅到深的特征层次结构构建两个DBM模型,提取低维高区分度的深层特征并存储,在测试过程中以适当的权重考虑文本标题给相似度的计算带来的贡献来确定待测试文本的类别。本发明充分利用文本标题的信息,比将浅层特征向量作为训练集在分类性能上有显著改善,同时能够降低存储需求和在线计算量,解决了特征向量高维灾难问题,提高了分类的准确度,可以用于安全级软件可靠性评价分析中的规则匹配和失效模式库的建立。 | ||
搜索关键词: | 一种 基于 knn 文本 分类 方法 | ||
【主权项】:
1.一种基于KNN的文本分类方法,包括训练过程处理和测试过程处理,所述训练过程包括以下步骤:步骤一,对训练样本数据集建立向量空间模型,计算样本的浅层特征向量,包括:提取每个文本中的段落标题形成标题数据集,分别对原始数据集和标题数据集进行预处理,分词,去除停用词,计算每个训练样本和对应的标题集的特征向量,形成原始文本特征向量和标题特征向量;步骤二,分别以原始文本特征向量和标题特征向量作为可视层的输入数据,构建两个包含5层隐藏层的深度玻尔兹曼机,并由这两个模型分别逐级提取原始文本深层特征向量vo和标题深层特征向量vt;步骤三,分别对原始文本深层特征向量vo和标题深层特征向量vt进行加权合并得到训练样本深层特征向量(λvo;(1‑λ)vt),其中λ是权重系数,存储该训练样本深层特征向量;所述测试过程处理包括以下步骤:步骤四,利用所述步骤一方法获得待测文本的特征向量,由步骤二构建的神经网络模型对其进行逐级特征提取,利用步骤三所述方法对提取后的特征向量进行加权合并,得到该待测文本的深层特征向量;步骤五,计算步骤四所述的深层特征向量与步骤三所存储的每个深层特征向量之间的相似度,将相似度按大小降序排序,在相似度排在前K位的向量中,将多数特征向量所具有的类别,作为待测文本的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京广利核系统工程有限公司;中国广核集团有限公司,未经北京广利核系统工程有限公司;中国广核集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610288920.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于圆柱形食品的包装封袋装置
- 下一篇:具有散热效果的成品包装称重装置