[发明专利]一种针对互联网涉税数据的文本分类方法在审

专利信息
申请号: 201410477312.1 申请日: 2014-09-18
公开(公告)号: CN104199959A 公开(公告)日: 2014-12-10
发明(设计)人: 刘丽娜;徐宏伟;黄兴柱 申请(专利权)人: 浪潮软件集团有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 济南信达专利事务所有限公司 37100 代理人: 姜明
地址: 250100 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 互联网 数据 文本 分类 方法
【权利要求书】:

1.一种针对互联网涉税数据的文本分类方法, 其特征在于步骤包括(1)对文本进行特征提取,(2) 对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中:

(1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;

(2) 对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;

(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:

Sim(A,B)= log p(common( A,B))/log p(description(A,B))    (1.1)

其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下:

1) 计算两个义原间的相似度

义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反 义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:

       (1.2)

其中,上式中的α表示一个可以改变的参数,代表了相似度为0.5时的路径的长度,依据义原树的深度通常取α= 1.6,dist(s1,s2)代表两个义原在义原树中的距离,在研究中发现,义原之间的距离并不代表义原之间的相互关系,其实,义原之间的相对位置对他们之间的相互关系也产生较大的影响;

2) 计算出两个义项的相似度

现实生活中面对的文本不仅包含实词还有虚词,基于实词和虚词在现实中是不可以相互替换的,这里将实词和虚词之间的相似度记为零,结合虚词的概念均用句法义原或关系义原方式简单描述,仅仅计算其对应的句法义原或关系义原之间的相似度即可,两个义项的整体相似度表达式如式(1.3)所示:

         (1.3)

其中βi(1≤i≤4) 是可变化的,一般根据经验指定,且有β1≥β2≥β3≥β4,β1234=1,因为一个概念的最主要的特征由第一义原描述式所反映的,所以其取值一般要大于0.5,当我们在实例验证时候发现,当sim1非常小,但是sim3或sim4比较大时,由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的,将表达式(1.3)进行了修改,给出如式(1.4)所示:

              (1.4)

至此,比较精确的表达出义项的相似度,但当考虑第一独立义原在整个概念描述中起至关重要的作用,同时该部分与其余部分是相互独立的,当第一义原部分的相似度比较低时,其余次要的三部分相似度对于整体相似度所起的作用也会降低,因此,对公式(1.4)进行修改为(1.5):

   (1.5)   

至此,比较精确的表达出义项的相似度;

3) 得出词语的相似度

假设有两个词语W1和W2,其中W1是由m个义项所组成,W2是由n个义项所组成,C1i ( i=1,…, m )和C2j ( j=1,…, n )分别代表每个词语的义项,W= { C11, C 12,…, C 1m},W2 = { C21, C 22,…,C2n },两个词语的相似度为义项C1i和C2j所有组合中相似度的最大值,如式(1.6)所示:

即词语的相似度为所有义项相似度的加权平均值,

   (1.6)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司;,未经浪潮软件集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410477312.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top