[发明专利]一种针对互联网涉税数据的文本分类方法在审
申请号: | 201410477312.1 | 申请日: | 2014-09-18 |
公开(公告)号: | CN104199959A | 公开(公告)日: | 2014-12-10 |
发明(设计)人: | 刘丽娜;徐宏伟;黄兴柱 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种针对互联网涉税数据的文本分类方法,可以有效的组织、管理、挖掘文本信息,伴随着互联网的快速发展,网络上的多媒体信息快速的增长,我们如何从浩瀚的网络资源中,高效地挖掘出有用信息,是文本分类中一项非常艰巨的任务,本发明可以通过文本分类技术,使网页自动的按照类别的方式进行组织和管理,满足税务人员方便快捷的信息处理需求,准确定位所需信息资源减少和避免税款流失,成为优化税收征管方式的现实问题。同时,文本分类技术作为信息过滤、信息检索、搜索引擎等领域的技术基础,有着广泛的应用前景,可产生巨大的社会效益和经济效益。 | ||
搜索关键词: | 一种 针对 互联网 数据 文本 分类 方法 | ||
【主权项】:
一种针对互联网涉税数据的文本分类方法, 其特征在于步骤包括(1)对文本进行特征提取,(2) 对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中:(1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;(2) 对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:Sim(A,B)= log p(common( A,B))/log p(description(A,B)) (1.1)其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下:1) 计算两个义原间的相似度义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反 义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:(1.2)其中,上式中的α表示一个可以改变的参数,代表了相似度为0.5时的路径的长度,依据义原树的深度通常取α= 1.6,dist(s1,s2)代表两个义原在义原树中的距离,在研究中发现,义原之间的距离并不代表义原之间的相互关系,其实,义原之间的相对位置对他们之间的相互关系也产生较大的影响;2) 计算出两个义项的相似度现实生活中面对的文本不仅包含实词还有虚词,基于实词和虚词在现实中是不可以相互替换的,这里将实词和虚词之间的相似度记为零,结合虚词的概念均用句法义原或关系义原方式简单描述,仅仅计算其对应的句法义原或关系义原之间的相似度即可,两个义项的整体相似度表达式如式(1.3)所示:(1.3)其中βi(1≤i≤4) 是可变化的,一般根据经验指定,且有β1≥β2≥β3≥β4,β1+β2+β3+β4=1,因为一个概念的最主要的特征由第一义原描述式所反映的,所以其取值一般要大于0.5,当我们在实例验证时候发现,当sim1非常小,但是sim3或sim4比较大时,由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的,将表达式(1.3)进行了修改,给出如式(1.4)所示:(1.4)至此,比较精确的表达出义项的相似度,但当考虑第一独立义原在整个概念描述中起至关重要的作用,同时该部分与其余部分是相互独立的,当第一义原部分的相似度比较低时,其余次要的三部分相似度对于整体相似度所起的作用也会降低,因此,对公式(1.4)进行修改为(1.5):(1.5)至此,比较精确的表达出义项的相似度;3) 得出词语的相似度假设有两个词语W1和W2,其中W1是由m个义项所组成,W2是由n个义项所组成,C1i ( i=1,…, m )和C2j ( j=1,…, n )分别代表每个词语的义项,W1 = { C11, C 12,…, C 1m},W2 = { C21, C 22,…,C2n },两个词语的相似度为义项C1i和C2j所有组合中相似度的最大值,如式(1.6)所示:即词语的相似度为所有义项相似度的加权平均值,(1.6)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司;,未经浪潮软件集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410477312.1/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置