[发明专利]一种支持海量长文本数据分类的分析模型的实现方法有效

专利信息
申请号: 201611001399.0 申请日: 2016-11-14
公开(公告)号: CN106708926B 公开(公告)日: 2020-10-30
发明(设计)人: 王宇;徐晓燕;周渊;刘庆良;郑彩娟;黄成;周游;王海平;马雪 申请(专利权)人: 北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心
主分类号: G06F40/216 分类号: G06F40/216;G06F40/289;G06F16/35
代理公司: 北京永创新实专利事务所 11121 代理人: 赵文颖
地址: 100125 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 支持 海量 文本 数据 分类 分析 模型 实现 方法
【说明书】:

本发明提出一种支持海量长文本数据分类的分析模型的实现方法,属于大数据文本分析技术领域。本发明采用HanLP分词工具中的标准分词并采用改进的CHI算法,一方面有效降低文本分类时每篇文章的词向量空间的维度,降低文本分类计算的时间复杂度,提升算法效率,满足大数据背景下海量长文本分类时的性能需求;同时最大程度低减少由于降低向量空间维度数而造成分类准确性降低。采用TFIDF算法能够有效消除了文本与向量之间的屏障,最后采用朴素贝叶斯分类算法,能够准确的将文本进行较好的训练,实现长文本的准确的分类。本发明能有效地解决在大数据环境下长文本分类的性能指标和准确性指标的矛盾性问题,具有广泛的应用前景。

技术领域

本发明属于大数据文本分析技术领域,具体涉及一种通过CHI算法提取每类文本的特征词、TFIDF算法实现文本的向量化表示以及朴素贝叶斯方法训练分类的海量长文本数据分类的分析模型的实现方法。

背景技术

当今时代,是一个信息技术飞速发展的时代。随着信息技术的发展,科学知识也在短时间内发生了急剧的、爆炸性的增长,每天都有大量的信息在产生,全世界每年出版图书50万种,每一分钟就有一种新书出版。平均每天发表的包含新知识的论文为1.3到1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。进二十年来,每年形成的文件资料的页数都在数以亿计的增加。同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋中!然而人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。

针对目前网络信息大部分都是以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本的关键技术,受到了广泛关注。目前的对于文本分类的工具,有两个大的方向:第一个方向是基于语义的,在分类算法的初期阶段,语义算法得到了许多研究者的青睐,在进行分类时充分考虑了一些语言中的语法结构,比如词语之间的位置关系,进行语句之间的相似度比较从而得到某个未知类别文章的类别,但是这类算法比较缺乏坚实的理论基础,不存在明确的评价标准且在实际应用的过程中表现越来越不能满足实际需求。因此,近些年,大部分的关于文本分类的研究是基于统计的分类算法研究,基于统计的分类算法大多具有严密的理论证明,并且在实际应用时的效果明显优于语义的算法。但是目前基于统计的分类算法也存在一些问题,大部分的统计分类模型的通用性比不好,只能在一些特定的情况下表现出来较为优秀的性能,并不通用;另外现在的统计分类分析模型大部分都是基于单个处理机的,这样模型对于目前的海量数据来讲,是扼需解决的一个问题。

发明内容

针对统计分类模型的这两个问题,本发明提供了相应的解决方法来应对目前的实际分类的需求,提出采用一种通过CHI算法提取每类文本的特征词,并通过计算所有类别的特征词集的集合交运算得到后续文本分类的词向量空间,可以一方面有效降低文本分类时每篇文章的词向量空间的维度,降低文本分类计算的时间复杂度,提升算法效率,满足大数据背景下海量长文本分类时的性能需求。同时又可以最大程度地减少由于降低向量空间维度数而造成分类准确性降低。TFIDF算法实现文本的向量化表示以及朴素贝叶斯方法训练分类的方法,不仅能够高效快速的对训练样本进行特征选取,也能够准确的对待分类文本进行分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心,未经北京赛思信安技术股份有限公司;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201611001399.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top