[发明专利]中文文本自动分类用的特征降维方法无效

申请号：	200410000721.9	申请日：	2004-01-16
公开（公告）号：	CN1558367A	公开（公告）日：	2004-12-29
发明（设计）人：	孙茂松;薛德军	申请（专利权）人：	清华大学
主分类号：	G06K9/80	分类号：	G06K9/80
代理公司：	暂无信息	代理人：	暂无信息
地址：	100084北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	中文文本自动分类用的特征降维方法属于中文文本自动分类领域，其特征在于：首先选用一种特征选择方法对原始特征集进行降维，得到中间特征集；再对中间特征集进行分析，找出“高度重叠二元串”和“高度偏差二元串”；把高度重叠二元串合并为对应的三元串，把高度偏差二元串删除，得到最后用于机器学习的学习特征集；再由此得到分类器，供分类阶段使用。它充分利用语言本身的特点，在中间特征集的基础上大幅度降维，以保证所选择的特征具有较好的分类能力和描述能力，克服了单一采用统计量进行特征选择的不足。
搜索关键词：	中文文本自动分类特征方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1、中文文本自动分类用的特征降维方法，其特征在于，它以计算机作为工具，依次执行以下步骤：在学习阶段，含有以下步骤：(1).初始化输入大小为N的学习文本集D，M为D的类型数(j＝1，...，M)；采用特征频度作为统计量，输入低频噪声二元串的阈值；采用Chi特征选择方法，输入二元串的权值阈值；输入δ、σ和k值，其定义及实值范围见下面所述；(2).用公知方法对学习文本集D进行预处理；(3).对学习文本集D分别进行一元、二元、三元串标引，得到一元串原始特征集、二元串原始特征集和三元串原始特征集；根据二元串原始特征集生成各个学习文本d的特征频度向量，它用d表示为：d＝(tf(T1d)，tf(T2d)，...，tf(Tnd))n为二元串原始特征集包含的特征总数，tf(Tid)为第i个二元串特征在文本d中的特征频度值(i＝1，...，n)；(4).对上述二元串原始特征集进行降维，得到二元串中间特征集：(4.1).根据特征频度值，去掉频度小于设定频度阈值的低频噪声二元串；(4.2).根据Chi特征选择方法，去掉权值小于设定的权值阈值的二元串；特征Tk在Cj类中的Chi权值为：

Chi (T_{k}, C_{j}) = \frac{N [P_{d} (T_{k}, C_{j}) \times P_{d} ({\overline{T}}_{k}, {\overline{C}}_{j}) - P_{d} (T_{k}, {\overline{C}}_{j}) \times P_{d} ({\overline{T}}_{k}, C_{j})]^{2}}{P_{d} (T_{k}) \times P_{d} (C_{j}) \times P_{d} ({\overline{T}}_{k}) \times P_{d} ({\overline{C}}_{j})},

其中，Pd(Tk，Cj)为包含特征Tk的Cj类文本在N中所占的比重；Pd(Tk，Cj)为未包含特征Tk的非Cj类文本在N中所占的比重；Pd(Tk，Cj)为包含特征Tk的非Cj类文本在N中所占的比重；Pd(Tk，Cj )为未包含特征Tk的Cj类文本在N中所占的比重；Pd(Tk)为包含特征Tk的文本在N中所占的比重；Pd(Cj)为Cj类文本在N中所占的比重；Pd(Tk)为未包含特征Tk的文本在N中所占的比重；Pd(Cj)为非Cj类文本在N中所占的比重；特征Tk在学习文本集D中的Chi权重值(取各类型中的最大值)为：

Chi (T_{k}) = \max_{j = 1}^{M} {Chi (T_{k}, C_{j})};

(5).在上述二元串中间特征集中，找出“δ-重叠二元串”和对应的三元串，把“δ-重叠二元串”替换为对应的三元串；设：有两个不同的二元串T1(t11t12)和T2(t21t22)，若：字符t12＝t21，则T1(t11t12)和T2(t21t22)是二个不同的重叠二元串，其中，t12＝t21表示：在两个不同的二元串中都包含同一个字符，t12表示这个字符在第一个二元串T1(t11t12)中处于第二个位置，t21表示这个字符在第二个二元串中处于第一个位置；而t11、t22分别表示两个二元串中其他的字符，若：两个不同的重叠二元串T1(t11t12)和T2(t21t22)，以及包含它们的三元串T3(t31t32t33)，如果在文本集D中，同时满足以下条件：

\frac{| tf (T_{1}) - tf (T_{2}) |}{\max (tf (T_{1}), tf (T_{2}))} \leq 1 - δ,

\frac{| df (T_{1}) - df (T_{2}) |}{\max (df (T_{1}), df (T_{2}))} \leq 1 - δ,

\frac{\min (| tf (T_{1}) - tf (T_{3}) |, | tf (T_{2}) - tf (T_{3}) |)}{\max (tf (T_{1}), tf (T_{2}))} \leq 1 - δ,

则：T1和T2是δ-重叠二元串，其中，T1、T2、T3分别是T1(t11t12)、T2(t21t22)和T3(t31t32t33)的简写，tf(T1)、tf(T2)、tf(T3)分别是T1、T2、T3在文本集D中出现的频度，df(T1)、df(T2)分别为文本集D中包含T1、T2的文本数，δ在[0-1.0]之间，表示T1、T2之间的重叠程度，为预设值，δ＝1表示T1、T2在文本集D中是完全重叠的，δ＝0表示T1、T2在文本集D中单独出现；(6).在上述二元串中间特征集中找出“σ-偏差二元串”，并删除之，从而得到学习特征集：σ-偏差二元串是指在文本集D中，满足以下条件的二元串T(t1t2)，此处，t1、t2分别表示不同的字符：

\frac{\max {tf (t_{1}), tf (t_{2})}}{\min {tf (t_{1}), tf (t_{2})}} \geq σ,

其中，tf(ti)是字符ti在文本集D中出现的频度，从上述一元串原始特征集中统计得出，σ是预置的大于1的实数，表示二元串T(t1t2)中字符t1、t2对分类所起作用的偏差程度，σ值越大，表示t1、t2的分类作用相差越大；(7).根据以上步骤中生成的二元串中间特征集、δ-重叠二元串和对应的三元串，以及σ-偏差二元串，对各学习文本d的二元串特征频度向量进行如下降维操作：删除二元串中间特征集中没有的特征；把存在的δ-重叠二元串替换为对应的三元串，频度替换成对应三元串频度的k倍；把存在的σ-偏差二元串删除；(8).以类型为单位，合并降维后的文本特征频度向量，生成各类型的特征频度向量Cj：Cj＝(tf(T1j)，tf(T2j)，...，tf(Tnj))，其中，tf(Tij)为第i个特征在类型Cj中出现的频度；(9).根据预设的特征向量权重计算方法，计算各类型Cj的权重向量并规格化，权重向量Wj为：Wj＝(w(T1j)，w(T2j)，...，w(Tnj))，第i个特征在类型Cj中的特征权重为w(Tij)：

w (T_{ij}) = \log (tf (T_{ij}) + 1.0) \times \log (\frac{N}{df (T_{i})}),

其中，df(Ti)为学习文本集D中含有第i个特征的文本数；(10).创建基于类中心向量的线性分类器f：

f = {\arg \max}_{j = 1}^{M} (W_{j} \cdot W_{d}),

其中，Wd为任意文本d的权重向量，其计算方法同步骤(9)中的类型权重向量，·为向量内积操作；(11).用测试数据，按下述分类阶段的方法进行测试，优化δ、σ、k各参数；在分类阶段，含有以下步骤：(12).对待分类文本进行预处理；(13).把待分类文本标引为二元串频度向量；(14).按上述步骤(7)中的操作对待分类文本的二元串频度向量进行降维；(15).按上述步骤(9)中的方法计算待分类文本的权重向量Wd；(16).将步骤(15)中得到的待分类文本权重向量Wd输入上述的分类器进行分类，输出分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200410000721.9/，转载请声明来源钻瓜专利网。

上一篇：一种无化学污染常温储运荔枝龙眼保鲜方法
下一篇：免疫抑制多肽的制备及应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]中文文本自动分类用的特征降维方法无效

专利文献下载