[发明专利]一种基于数据特征的智能信息分类方法在审

专利信息
申请号: 201510866092.6 申请日: 2015-11-26
公开(公告)号: CN105447161A 公开(公告)日: 2016-03-30
发明(设计)人: 刘治;张胜;章云 申请(专利权)人: 广东工业大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 510006 广东省广州市番*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 特征 智能 信息 分类 方法
【权利要求书】:

1.一种基于数据特征的智能信息分类方法,其特征在于,该方法包括:

根据数据特征创建知识库,对待分类的中文网页进行预分类,大大加速了网页的分类速度。

2.根据权利要求1所述的方法,其特征在于,所述的预分类方法包括:

(1)提取网页标题内容,与知识库中关键词表比较,判断单词所属类别,统计标题中的单词在各类别中的出现频度;(2)若属于某个类别的单词频度最大,则认为网页属于该类别;(3)若属于两个类别的单词频度相等,则比较类别优先级,将其划分为优先级较大的类别;(4)若优先级相同,则预分类失败,需要使用SVM分类器继续分类。

3.根据权利要求1所述的方法,其特征在于,所述的知识库创建包括:

(1)按各个类别提取训练集中所有网页的<title>标记包含的内容,并对其进行分词处理,然后分别统计词频,并按词频降序排列;(2)将从这些词中选取部分作为预先分类的知识库,选取的原则是从每个类别中词频最高的词开始,检查它是否在其他类别中出现过,如果没有在其他类别中出现,则将它选取为该类别的知识库。

4.根据权利要求1所述的方法,其特征在于,所述的SVM分类器的创建原理包括:

(1)设给定的训练集

T∈{(x1,y1),(x2,y2),…,(xi,yi)}∈(X*Y)l

其中,xi∈X=Rn,yi∈Y={-1,1},i=1,2,…,l

(2)选择适合的核函数K(x,x′)和惩罚参数C,构造并求解如下最优化问题:

0≤αi≤Ci=1,2,3…l

得到最优解

(3)选择α*的一个小于C的正分量并据此计算

(4)构造决策函数

5.根据权利要求4所述方法,其特征在于,所述特征向量的构造方法包括:

(1)使用空间向量模型(VectorSpaceModel)将待训练网页正文文本转换成特征向量;在该模型中,每个文本文档被表示成如下的特征向量:

V(d)=(t1,ω1(d);t2,ω2(d);…;tn,ωn(d);)

其中ti为特征项,ωi(d)为ti在文档中的权重;

(2)特征项在文档中的权重ωi(d)可以使用基于TF-IDF的传统权重算法进行计算,计算公式如下:

其中,tfi(d)为ti在文档d中出现的频率,N为文档集中的总文档数,nk为出现特征项tk的文档数;

(3)在网页表示中,有两个因素影响特征项的权重值:一是特征项在文档中出现的频率,一是特征项在文档中出现的位置;采用对不同位置特征词赋予不同权重因子的方法,权重因子计算公式如下:

其中,表示核心词平均词频,表示非核心词平均词频,dk和Nk分别为核心词词频和核心词数,d0和N0分别为非核心词词频和非核心词词数;核心词包括<title>内的词和<meta>标记中keywords,description位置出现的词,其余为非核心词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510866092.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top