[发明专利]中文文本自动分类用的特征降维方法无效
| 申请号: | 200410000721.9 | 申请日: | 2004-01-16 |
| 公开(公告)号: | CN1558367A | 公开(公告)日: | 2004-12-29 |
| 发明(设计)人: | 孙茂松;薛德军 | 申请(专利权)人: | 清华大学 |
| 主分类号: | G06K9/80 | 分类号: | G06K9/80 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100084北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 中文文本自动分类用的特征降维方法属于中文文本自动分类领域,其特征在于:首先选用一种特征选择方法对原始特征集进行降维,得到中间特征集;再对中间特征集进行分析,找出“高度重叠二元串”和“高度偏差二元串”;把高度重叠二元串合并为对应的三元串,把高度偏差二元串删除,得到最后用于机器学习的学习特征集;再由此得到分类器,供分类阶段使用。它充分利用语言本身的特点,在中间特征集的基础上大幅度降维,以保证所选择的特征具有较好的分类能力和描述能力,克服了单一采用统计量进行特征选择的不足。 | ||
| 搜索关键词: | 中文 文本 自动 分类 特征 方法 | ||
【主权项】:
1、中文文本自动分类用的特征降维方法,其特征在于,它以计算机作为工具,依次执行以下步骤:在学习阶段,含有以下步骤:(1).初始化输入大小为N的学习文本集D,M为D的类型数(j=1,...,M);采用特征频度作为统计量,输入低频噪声二元串的阈值;采用Chi特征选择方法,输入二元串的权值阈值;输入δ、σ和k值,其定义及实值范围见下面所述;(2).用公知方法对学习文本集D进行预处理;(3).对学习文本集D分别进行一元、二元、三元串标引,得到一元串原始特征集、二元串原始特征集和三元串原始特征集;根据二元串原始特征集生成各个学习文本d的特征频度向量,它用d表示为:d=(tf(T1d),tf(T2d),...,tf(Tnd))n为二元串原始特征集包含的特征总数,tf(Tid)为第i个二元串特征在文本d中的特征频度值(i=1,...,n);(4).对上述二元串原始特征集进行降维,得到二元串中间特征集:(4.1).根据特征频度值,去掉频度小于设定频度阈值的低频噪声二元串;(4.2).根据Chi特征选择方法,去掉权值小于设定的权值阈值的二元串;特征Tk在Cj类中的Chi权值为: 其中,Pd(Tk,Cj)为包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk,Cj)为未包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj)为包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj )为未包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk)为包含特征Tk的文本在N中所占的比重;Pd(Cj)为Cj类文本在N中所占的比重;Pd(Tk)为未包含特征Tk的文本在N中所占的比重;Pd(Cj)为非Cj类文本在N中所占的比重;特征Tk在学习文本集D中的Chi权重值(取各类型中的最大值)为: (5).在上述二元串中间特征集中,找出“δ-重叠二元串”和对应的三元串,把“δ-重叠二元串”替换为对应的三元串;设:有两个不同的二元串T1(t11t12)和T2(t21t22),若:字符t12=t21,则T1(t11t12)和T2(t21t22)是二个不同的重叠二元串,其中,t12=t21表示:在两个不同的二元串中都包含同一个字符,t12表示这个字符在第一个二元串T1(t11t12)中处于第二个位置,t21表示这个字符在第二个二元串中处于第一个位置;而t11、t22分别表示两个二元串中其他的字符,若:两个不同的重叠二元串T1(t11t12)和T2(t21t22),以及包含它们的三元串T3(t31t32t33),如果在文本集D中,同时满足以下条件: 则:T1和T2是δ-重叠二元串,其中,T1、T2、T3分别是T1(t11t12)、T2(t21t22)和T3(t31t32t33)的简写,tf(T1)、tf(T2)、tf(T3)分别是T1、T2、T3在文本集D中出现的频度,df(T1)、df(T2)分别为文本集D中包含T1、T2的文本数,δ在[0-1.0]之间,表示T1、T2之间的重叠程度,为预设值,δ=1表示T1、T2在文本集D中是完全重叠的,δ=0表示T1、T2在文本集D中单独出现;(6).在上述二元串中间特征集中找出“σ-偏差二元串”,并删除之,从而得到学习特征集:σ-偏差二元串是指在文本集D中,满足以下条件的二元串T(t1t2),此处,t1、t2分别表示不同的字符: 其中,tf(ti)是字符ti在文本集D中出现的频度,从上述一元串原始特征集中统计得出,σ是预置的大于1的实数,表示二元串T(t1t2)中字符t1、t2对分类所起作用的偏差程度,σ值越大,表示t1、t2的分类作用相差越大;(7).根据以上步骤中生成的二元串中间特征集、δ-重叠二元串和对应的三元串,以及σ-偏差二元串,对各学习文本d的二元串特征频度向量进行如下降维操作:删除二元串中间特征集中没有的特征;把存在的δ-重叠二元串替换为对应的三元串,频度替换成对应三元串频度的k倍;把存在的σ-偏差二元串删除;(8).以类型为单位,合并降维后的文本特征频度向量,生成各类型的特征频度向量Cj:Cj=(tf(T1j),tf(T2j),...,tf(Tnj)),其中,tf(Tij)为第i个特征在类型Cj中出现的频度;(9).根据预设的特征向量权重计算方法,计算各类型Cj的权重向量并规格化,权重向量Wj为:Wj=(w(T1j),w(T2j),...,w(Tnj)),第i个特征在类型Cj中的特征权重为w(Tij): 其中,df(Ti)为学习文本集D中含有第i个特征的文本数;(10).创建基于类中心向量的线性分类器f: 其中,Wd为任意文本d的权重向量,其计算方法同步骤(9)中的类型权重向量,·为向量内积操作;(11).用测试数据,按下述分类阶段的方法进行测试,优化δ、σ、k各参数;在分类阶段,含有以下步骤:(12).对待分类文本进行预处理;(13).把待分类文本标引为二元串频度向量;(14).按上述步骤(7)中的操作对待分类文本的二元串频度向量进行降维;(15).按上述步骤(9)中的方法计算待分类文本的权重向量Wd;(16).将步骤(15)中得到的待分类文本权重向量Wd输入上述的分类器进行分类,输出分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410000721.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种无化学污染常温储运荔枝龙眼保鲜方法
- 下一篇:免疫抑制多肽的制备及应用





