[发明专利]一种基于数据特征的智能信息分类方法在审
| 申请号: | 201510866092.6 | 申请日: | 2015-11-26 |
| 公开(公告)号: | CN105447161A | 公开(公告)日: | 2016-03-30 |
| 发明(设计)人: | 刘治;张胜;章云 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510006 广东省广州市番*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 数据 特征 智能 信息 分类 方法 | ||
1.一种基于数据特征的智能信息分类方法,其特征在于,该方法包括:
根据数据特征创建知识库,对待分类的中文网页进行预分类,大大加速了网页的分类速度。
2.根据权利要求1所述的方法,其特征在于,所述的预分类方法包括:
(1)提取网页标题内容,与知识库中关键词表比较,判断单词所属类别,统计标题中的单词在各类别中的出现频度;(2)若属于某个类别的单词频度最大,则认为网页属于该类别;(3)若属于两个类别的单词频度相等,则比较类别优先级,将其划分为优先级较大的类别;(4)若优先级相同,则预分类失败,需要使用SVM分类器继续分类。
3.根据权利要求1所述的方法,其特征在于,所述的知识库创建包括:
(1)按各个类别提取训练集中所有网页的<title>标记包含的内容,并对其进行分词处理,然后分别统计词频,并按词频降序排列;(2)将从这些词中选取部分作为预先分类的知识库,选取的原则是从每个类别中词频最高的词开始,检查它是否在其他类别中出现过,如果没有在其他类别中出现,则将它选取为该类别的知识库。
4.根据权利要求1所述的方法,其特征在于,所述的SVM分类器的创建原理包括:
(1)设给定的训练集
T∈{(x1,y1),(x2,y2),…,(xi,yi)}∈(X*Y)l
其中,xi∈X=Rn,yi∈Y={-1,1},i=1,2,…,l
(2)选择适合的核函数K(x,x′)和惩罚参数C,构造并求解如下最优化问题:
0≤αi≤Ci=1,2,3…l
得到最优解
(3)选择α*的一个小于C的正分量并据此计算
(4)构造决策函数
。
5.根据权利要求4所述方法,其特征在于,所述特征向量的构造方法包括:
(1)使用空间向量模型(VectorSpaceModel)将待训练网页正文文本转换成特征向量;在该模型中,每个文本文档被表示成如下的特征向量:
V(d)=(t1,ω1(d);t2,ω2(d);…;tn,ωn(d);)
其中ti为特征项,ωi(d)为ti在文档中的权重;
(2)特征项在文档中的权重ωi(d)可以使用基于TF-IDF的传统权重算法进行计算,计算公式如下:
其中,tfi(d)为ti在文档d中出现的频率,N为文档集中的总文档数,nk为出现特征项tk的文档数;
(3)在网页表示中,有两个因素影响特征项的权重值:一是特征项在文档中出现的频率,一是特征项在文档中出现的位置;采用对不同位置特征词赋予不同权重因子的方法,权重因子计算公式如下:
其中,表示核心词平均词频,表示非核心词平均词频,dk和Nk分别为核心词词频和核心词数,d0和N0分别为非核心词词频和非核心词词数;核心词包括<title>内的词和<meta>标记中keywords,description位置出现的词,其余为非核心词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510866092.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:群组文件搜索方法和装置
- 下一篇:一种信息推荐系统及信息推荐方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





