[发明专利]中文文本自动分类用的特征降维方法无效

专利信息
申请号: 200410000721.9 申请日: 2004-01-16
公开(公告)号: CN1558367A 公开(公告)日: 2004-12-29
发明(设计)人: 孙茂松;薛德军 申请(专利权)人: 清华大学
主分类号: G06K9/80 分类号: G06K9/80
代理公司: 暂无信息 代理人: 暂无信息
地址: 100084北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 中文文本自动分类用的特征降维方法属于中文文本自动分类领域,其特征在于:首先选用一种特征选择方法对原始特征集进行降维,得到中间特征集;再对中间特征集进行分析,找出“高度重叠二元串”和“高度偏差二元串”;把高度重叠二元串合并为对应的三元串,把高度偏差二元串删除,得到最后用于机器学习的学习特征集;再由此得到分类器,供分类阶段使用。它充分利用语言本身的特点,在中间特征集的基础上大幅度降维,以保证所选择的特征具有较好的分类能力和描述能力,克服了单一采用统计量进行特征选择的不足。
搜索关键词: 中文 文本 自动 分类 特征 方法
【主权项】:
1、中文文本自动分类用的特征降维方法,其特征在于,它以计算机作为工具,依次执行以下步骤:在学习阶段,含有以下步骤:(1).初始化输入大小为N的学习文本集D,M为D的类型数(j=1,...,M);采用特征频度作为统计量,输入低频噪声二元串的阈值;采用Chi特征选择方法,输入二元串的权值阈值;输入δ、σ和k值,其定义及实值范围见下面所述;(2).用公知方法对学习文本集D进行预处理;(3).对学习文本集D分别进行一元、二元、三元串标引,得到一元串原始特征集、二元串原始特征集和三元串原始特征集;根据二元串原始特征集生成各个学习文本d的特征频度向量,它用d表示为:d=(tf(T1d),tf(T2d),...,tf(Tnd))n为二元串原始特征集包含的特征总数,tf(Tid)为第i个二元串特征在文本d中的特征频度值(i=1,...,n);(4).对上述二元串原始特征集进行降维,得到二元串中间特征集:(4.1).根据特征频度值,去掉频度小于设定频度阈值的低频噪声二元串;(4.2).根据Chi特征选择方法,去掉权值小于设定的权值阈值的二元串;特征Tk在Cj类中的Chi权值为: Chi ( T k , C j ) = N [ P d ( T k , C j ) × P d ( T k , C j ) - P d ( T k , C j ) × P d ( T k , C j ) ] 2 P d ( T k ) × P d ( C j ) × P d ( T k ) × P d ( C j ) , 其中,Pd(Tk,Cj)为包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk,Cj)为未包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj)为包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj )为未包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk)为包含特征Tk的文本在N中所占的比重;Pd(Cj)为Cj类文本在N中所占的比重;Pd(Tk)为未包含特征Tk的文本在N中所占的比重;Pd(Cj)为非Cj类文本在N中所占的比重;特征Tk在学习文本集D中的Chi权重值(取各类型中的最大值)为: Chi ( T k ) = max j = 1 M { Chi ( T k , C j ) } ; (5).在上述二元串中间特征集中,找出“δ-重叠二元串”和对应的三元串,把“δ-重叠二元串”替换为对应的三元串;设:有两个不同的二元串T1(t11t12)和T2(t21t22),若:字符t12=t21,则T1(t11t12)和T2(t21t22)是二个不同的重叠二元串,其中,t12=t21表示:在两个不同的二元串中都包含同一个字符,t12表示这个字符在第一个二元串T1(t11t12)中处于第二个位置,t21表示这个字符在第二个二元串中处于第一个位置;而t11、t22分别表示两个二元串中其他的字符,若:两个不同的重叠二元串T1(t11t12)和T2(t21t22),以及包含它们的三元串T3(t31t32t33),如果在文本集D中,同时满足以下条件: | tf ( T 1 ) - tf ( T 2 ) | max ( tf ( T 1 ) , tf ( T 2 ) ) 1 - δ , | df ( T 1 ) - df ( T 2 ) | max ( df ( T 1 ) , df ( T 2 ) ) 1 - δ , min ( | tf ( T 1 ) - tf ( T 3 ) | , | tf ( T 2 ) - tf ( T 3 ) | ) max ( tf ( T 1 ) , tf ( T 2 ) ) 1 - δ , 则:T1和T2是δ-重叠二元串,其中,T1、T2、T3分别是T1(t11t12)、T2(t21t22)和T3(t31t32t33)的简写,tf(T1)、tf(T2)、tf(T3)分别是T1、T2、T3在文本集D中出现的频度,df(T1)、df(T2)分别为文本集D中包含T1、T2的文本数,δ在[0-1.0]之间,表示T1、T2之间的重叠程度,为预设值,δ=1表示T1、T2在文本集D中是完全重叠的,δ=0表示T1、T2在文本集D中单独出现;(6).在上述二元串中间特征集中找出“σ-偏差二元串”,并删除之,从而得到学习特征集:σ-偏差二元串是指在文本集D中,满足以下条件的二元串T(t1t2),此处,t1、t2分别表示不同的字符: max { tf ( t 1 ) , tf ( t 2 ) } min { tf ( t 1 ) , tf ( t 2 ) } σ , 其中,tf(ti)是字符ti在文本集D中出现的频度,从上述一元串原始特征集中统计得出,σ是预置的大于1的实数,表示二元串T(t1t2)中字符t1、t2对分类所起作用的偏差程度,σ值越大,表示t1、t2的分类作用相差越大;(7).根据以上步骤中生成的二元串中间特征集、δ-重叠二元串和对应的三元串,以及σ-偏差二元串,对各学习文本d的二元串特征频度向量进行如下降维操作:删除二元串中间特征集中没有的特征;把存在的δ-重叠二元串替换为对应的三元串,频度替换成对应三元串频度的k倍;把存在的σ-偏差二元串删除;(8).以类型为单位,合并降维后的文本特征频度向量,生成各类型的特征频度向量Cj:Cj=(tf(T1j),tf(T2j),...,tf(Tnj)),其中,tf(Tij)为第i个特征在类型Cj中出现的频度;(9).根据预设的特征向量权重计算方法,计算各类型Cj的权重向量并规格化,权重向量Wj为:Wj=(w(T1j),w(T2j),...,w(Tnj)),第i个特征在类型Cj中的特征权重为w(Tij): w ( T ij ) = log ( tf ( T ij ) + 1.0 ) × log ( N df ( T i ) ) , 其中,df(Ti)为学习文本集D中含有第i个特征的文本数;(10).创建基于类中心向量的线性分类器f: f = arg max j = 1 M ( W j · W d ) , 其中,Wd为任意文本d的权重向量,其计算方法同步骤(9)中的类型权重向量,·为向量内积操作;(11).用测试数据,按下述分类阶段的方法进行测试,优化δ、σ、k各参数;在分类阶段,含有以下步骤:(12).对待分类文本进行预处理;(13).把待分类文本标引为二元串频度向量;(14).按上述步骤(7)中的操作对待分类文本的二元串频度向量进行降维;(15).按上述步骤(9)中的方法计算待分类文本的权重向量Wd;(16).将步骤(15)中得到的待分类文本权重向量Wd输入上述的分类器进行分类,输出分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200410000721.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top