[发明专利]基于代表词知识库的文本内容分类方法有效

专利信息
申请号: 201410126594.0 申请日: 2014-03-31
公开(公告)号: CN103838886A 公开(公告)日: 2014-06-04
发明(设计)人: 孙宏;赵晓波;季海东;董童霖;赵宇龙 申请(专利权)人: 辽宁四维科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 沈阳杰克知识产权代理有限公司 21207 代理人: 罗莹
地址: 110043 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 代表 知识库 文本 内容 分类 方法
【说明书】:

技术领域

发明属于文本内容分类领域,特别是涉及到一个基于专家系统代表词分类知识库的文本内容分类方法、系统及装置。

技术背景

随着移动互联网的迅猛发展,特备是3G、4G互联网普及,原本只有专业和时尚人士上网变成草根屌丝们都能上网,带来了全民上网的信息化时代,造成信息爆炸。有效的组织管理好互联网信息,并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征,是对当今信息科学技术领域的一大挑战。文本分类技术,作为处理海量互联网文本数据的关键技术,可以解决电信运营商智能营销的问题,达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。

自动文本页面分类方法已经成为研究自然语言处理的热点,其分类方法各种各样,归结为有⑴基于IF-THEN决策树专家规则的分类方法;⑵基于自然语言利用神经网络的学习算法;⑶基于关键词的语言算法等的语义分析;⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配;⑸通过识别内容中的共性元素进行聚类分类;⑹基于概率统计的贝叶斯分类;⑺遗传算法分类优化技术等等……。但是,这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类

但是,以上这些自动文本页面分类均无法解决海量大数据的文本内容分类问题,然而本发明填补了百亿级海量大数据的分类问题。

发明内容

鉴于以上存在的问题,本发明的目的在于:提供一种通过人工智能专家系统构建的基于代表词知识库的文本内容分类方法,旨在解决电信运营商百亿级海量“有效”访问内容(页面URL)进行准确而高效的分类的问题。

本发明的目的是通过下述技术方案实现的:

基于代表词知识库的文本内容分类方法,其特征在于,包括:

(1)首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…},其中i=1、2、…、M,M为页面中代表词数;若WPage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage

(2)从“代表词分类知识库”中读取所有的分类知识:

WBase(Ck)={(w1k,f1k),(w2k,f2k),···,(wjk,fjk),···}]]>

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁四维科技发展有限公司,未经辽宁四维科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410126594.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top