[发明专利]基于代表词知识库的文本内容分类方法有效

申请号：	201410126594.0	申请日：	2014-03-31
公开（公告）号：	CN103838886A	公开（公告）日：	2014-06-04
发明（设计）人：	孙宏;赵晓波;季海东;董童霖;赵宇龙	申请（专利权）人：	辽宁四维科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	沈阳杰克知识产权代理有限公司 21207	代理人：	罗莹
地址：	110043 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于代表知识库文本内容分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于文本内容分类领域，特别是涉及到一个基于专家系统代表词分类知识库的文本内容分类方法、系统及装置。

技术背景

随着移动互联网的迅猛发展，特备是3G、4G互联网普及，原本只有专业和时尚人士上网变成草根屌丝们都能上网，带来了全民上网的信息化时代，造成信息爆炸。有效的组织管理好互联网信息，并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征，是对当今信息科学技术领域的一大挑战。文本分类技术，作为处理海量互联网文本数据的关键技术，可以解决电信运营商智能营销的问题，达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。

自动文本页面分类方法已经成为研究自然语言处理的热点，其分类方法各种各样，归结为有⑴基于IF-THEN决策树专家规则的分类方法；⑵基于自然语言利用神经网络的学习算法；⑶基于关键词的语言算法等的语义分析；⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配；⑸通过识别内容中的共性元素进行聚类分类；⑹基于概率统计的贝叶斯分类；⑺遗传算法分类优化技术等等……。但是，这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类

但是，以上这些自动文本页面分类均无法解决海量大数据的文本内容分类问题，然而本发明填补了百亿级海量大数据的分类问题。

发明内容

鉴于以上存在的问题，本发明的目的在于：提供一种通过人工智能专家系统构建的基于代表词知识库的文本内容分类方法，旨在解决电信运营商百亿级海量“有效”访问内容（页面URL）进行准确而高效的分类的问题。

本发明的目的是通过下述技术方案实现的：

基于代表词知识库的文本内容分类方法，其特征在于，包括：

（1）首先对待页面URL的标题Title进行切词，然后与元信息Meta中的关键词进行合并，同时计算出代表词的频度，构成页面特征向量W_Page={(W₁，f₁),(W₂，f₂),…,(W_i，f_i),…}，其中i=1、2、…、M,M为页面中代表词数；若W_Page为空，该页面没有标题和元信息，则对页面正文Bod_y进行切词，用与标题和元信息同样方法构成页面特征向量W_Page：

（2）从“代表词分类知识库”中读取所有的分类知识：

WBase(Ck)={(w1k,f1k),(w2k,f2k),···,(wjk,fjk),···}]]>

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁四维科技发展有限公司，未经辽宁四维科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410126594.0/2.html，转载请声明来源钻瓜专利网。

上一篇：用于使用多个无线接口的无线点对点通信的方法和设备
下一篇：一种磁性六连杆机构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于代表词知识库的文本内容分类方法有效

专利文献下载