[发明专利]一种针对互联网涉税数据的文本分类方法在审

专利信息
申请号: 201410477312.1 申请日: 2014-09-18
公开(公告)号: CN104199959A 公开(公告)日: 2014-12-10
发明(设计)人: 刘丽娜;徐宏伟;黄兴柱 申请(专利权)人: 浪潮软件集团有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 济南信达专利事务所有限公司 37100 代理人: 姜明
地址: 250100 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 互联网 数据 文本 分类 方法
【说明书】:

技术领域

发明涉及互联网电商数据,短文本,用户评论等相关文本领域,使互联网中的有关数据得到有效组织和管理,满足人们方便快捷的信息处理需求,准确定位所需信息资源满足客户的需求。具体地说是一种针对互联网涉税数据的文本分类方法。

背景技术

随着互联网和信息技术的快速发展,电子信息资源急剧增长,互联网正深刻的影响着人们的生活。同时大多数的电子信息是以文本形式存在的。如何有效的组织和管理这些资源,并快速、准确地找到用户所需信息成为当前信息技术领域面临的一大问题。对于海量文本内容的处理,文本分类是基础的且非常重要的。文本分类是指根据文本内容,将给定文本划分到预定义的类别中。文本分类在信息过滤、信息检索、垃圾邮件过滤、词义消歧、中有重要应用。

文本分类是一个复杂的过程,主要包括文档预处理、文本表示、分类算法设计、性能评估等主要步骤,文本分类的主要任务有文本的形式化表示以及在此基础上的分类算法设计。从自然语言的角度看文本其核心的内容是它的语义信息。最理想的境界是计算机能准确地揣测和摹拟人们所理解的语义,把人们认为语义相近的文本分成一类。但是,计算机并不具有人的智能,根本不可能在读懂文档的基础上对其进行分类。对于计算机,它只能从文本的外部特征来反映它们的语义信息。因此,要利用它完成文本的分类,必须将它表示成计算机可以接受的模型,必须要对文本进行形式化表示。这种形式化表示应该尽可能多地反映文本所蕴涵的语义信息,同时应该是便于计算的,也就是说,从文本的形式化表示能比较容易地计算出文本所蕴涵的语义信息来,也正是因为把文档以向量的形式定义到实数域中,才使得模式识别和其他领域中各种成熟的计算方法得以采用,极大地提高了自然语言文档的可计算性和可操作性。因此,向量空间模型文档表示的形式化方法是基于文档处理的各种应用得以形式化的基础和前提,如何让这种向量尽量准确有效地表达出文本内容一直是该模型中的基础性问题。在向量空间模型中,词作为文本特征存在着表达能力有限的问题。这种方法仅仅用词作为文本特征,并没有使用人们掌握的知识,国内外研究人员为了处理同义和概念之间的上下级关系,提出基于概念的文本分类方法。在基于向量空间模型的文本分类算法中,文档中出现的词是按照词形考虑的,使用这种简单的表示方法,会使得内容相近的文档由于使用不同的词语而被认为不是同一类。

文本分类作为数据挖掘中一种见的研究热点方向,主要步骤:文本预处理,特征选择(计算特征词的权重和选择特征词),表示文本的特征模型的建立,训练分类器,用分类器进行分类。其中特征选择是文本分类中最重要的,能否利用特征选择选出合适的特征词对分类的效果有重要影响。能否利用特征选择选出合适的特征词会直接影响分类的效率和效果。由于之前方法没有充分考虑词的层次结构,没有考虑到语义树状结构中的深度以及语义之间的相互独立性,因此,造成了分类结果不够精确,如何提高分类精确度一直是文本分类领域研究的热点,相关领域的研究者提出了许多改进的算法,本发明也对文本分类提出了一种改进的方法。

发明内容

本发明的目的是提供一种针对互联网涉税数据的文本分类方法。

本发明的目的是按以下方式实现的,步骤包括(1)对文本进行特征提取,(2) 对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中:

(1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;

(2) 对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;

(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:

Sim(A,B)= log p(common( A,B))/log p(div(A,B))    (1.1)

其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下:

1) 计算两个义原间的相似度

义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反 义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:

             (1.2)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司;,未经浪潮软件集团有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410477312.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top