[发明专利]一种提取文本模型特征进行分类算法在审

专利信息
申请号: 201410765214.8 申请日: 2014-12-10
公开(公告)号: CN104462406A 公开(公告)日: 2015-03-25
发明(设计)人: 刘江;李健铨;李炜 申请(专利权)人: 天津大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 叶青
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种提取文本模型特征进行分类算法,该算法对文本模型的训练数据通过计算第一阶段权值后,将第一阶段权值进行计算在文本模型训练数据中获得特征在新、旧数据分布,再次计算获得第二阶段权值,最后将第二阶段权值以小到大的顺序获得对文本模型分类,获得目标特征;该算法对文本模型提取到的特征既不过于倾向于训练数据中的旧数据,也不单纯从训练数据中的少量新数据中获得,能够取得较好的分类效果。
搜索关键词: 一种 提取 文本 模型 特征 进行 分类 算法
【主权项】:
一种提取文本模型特征进行分类算法,包括如下步骤:第一,对文本模型的训练数据采用信息增益算法(IG,Information Gain)获得特征的权值其算法为:<mrow><mi>IG</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mi>log</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mi>P</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>|</mo><mi>t</mi><mo>)</mo></mrow><mi>log</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>|</mo><mi>t</mi><mo>)</mo></mrow><mo>+</mo><mi>P</mi><mrow><mo>(</mo><mover><mi>t</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>|</mo><mover><mi>t</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow><mi>log</mi><mi>P</mi><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>|</mo><mover><mi>t</mi><mo>&OverBar;</mo></mover><mo>)</mo></mrow></mrow>公式(1)公式(1)中,P(Ci)为类别Ci包含文本数与文本总数的比值,P(t)为包含特征t的文本数与文本总数的比值,P(Ci|t)为出现特征t时文本属于Ci的概率,为不含特征t的文本数与文本总数的比值,为不出现特征t时文本属于Ci的概率;第二,将步骤一获得的权值IG进行排序,提取第一阶段α*K个特征;第三,将第一阶段α*K个特征采用公式(2)和(3)计算特征t在文本模型的训练数据中新数据、旧数据的分布情况,获得:wsame(t,Csame)=f(t,Csame)*n(t,Csame)/N(Csame)    (2)wdif(t,Cdif)=f(t,Cdif)*n(t,Cdif)/N(Cdif)    (3)其中,Csame和Cdif分别表示训练数据中的新、旧数据,f(t,Csame)和f(t,Cdif)分别表示特征t在新、旧数据中出现的次数,n(t,Csame)和n(t,Cdif)分别表示新、旧数据中出现特征t的文本数,N(Csame)和N(Cdif)分别为新、旧数据中的文本总数,wsame(t,Csame)和wdif(t,Cdif)分别表示特征t在新、旧数据中的分布;第四,将步骤三中特征t在新、旧数据中的分布,采用公式(4)计算特征t的最终的权值,提取第二阶段α*K个特征:max{wsame(t,Csame),wdif(t,Cdif)}/min{wsame(t,Csame),wdif(t,Cdif)}    (4)第五,依次循环步骤二到步骤四,不断提取第二阶段α*K个特征;第六,对步骤五获得第二阶段第二阶段α*K个特征按权重从小到达进行排序,选取权重最小K个特征完成文本模型分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410765214.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top