[发明专利]基于代表词知识库的文本内容分类方法有效

申请号：	201410126594.0	申请日：	2014-03-31
公开（公告）号：	CN103838886A	公开（公告）日：	2014-06-04
发明（设计）人：	孙宏;赵晓波;季海东;董童霖;赵宇龙	申请（专利权）人：	辽宁四维科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	沈阳杰克知识产权代理有限公司 21207	代理人：	罗莹
地址：	110043 辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于“代表词知识库”的文本内容分类方法，属于数据分析和内容分类领域。本发明采用人工智能专家系统的方法，通过对待分类页面W_Page的构成特征向量，计算与已经分类完的“代表词知识库”W_base(C_K)中知识的最短距离D(C_min)和相似度S_k;，根据预置的阈值来判断W_Page归属哪一类，从而达到分类的目的。对代表词分类知识库的更新，使系统变得越来聪明，不仅提高了内容分类的效率，更重要是提高了内容分类的覆盖面和准确程度。
搜索关键词：	基于代表知识库文本内容分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于代表词知识库的文本内容分类方法，其特征在于，包括：（1）首先对待页面URL的标题Title进行切词，然后与元信息Meta中的关键词进行合并，同时计算出合并后代表词的频度，构成页面特征向量W_Page={(W₁，f₁),(W₂，f₂),…,(W_i，f_i),…}，其中i=1、2、…、M,M为页面中代表词数；若W_Page为空，该页面没有标题和元信息，则对页面正文Bod_y进行切词，用与标题和元信息同样方法构成页面特征向量W_Page：（2）从“代表词分类知识库”中读取所有的分类知识：WBase(Ck)={(w1k,f1k),(w2k,f2k),···,(wjk,fjk),···}]]>其中,k=1、2、…、L，L为知识库分类数；j=1、2、…、N,N为第C_k类代表词数,为第C_k类第j个代表词，为第C_k类第j个代表词对应的频度；（3）计算待文本页面特征向量W_Page与所有类别W_base(C_K)的距离D(C_K)，同时计算出其中最短的距离D(C_min)和相似度S_kD(ck)=Σi=1MΣj=1N(fi-fjk)2]]>D(cmin)=Min{Σk=1LD(ck)}]]>Sk=Σj=1Mfjk-D(cmin)Σj=1Mfjk]]>（4）进行文本分类：当M_k＜S_k≦1时，内容分类成功，将成功分类结果Wnew(Ck)={(w1k,f1k),(w2k,f2k),···,(wik,fik),···}]]>存储到“内容分类结果”文件中，同时更新维护代表词知识库；当S_k≦M_k时，内容分类失败，结束分类。其中M_k是预先设置在0-1之间的相似度阈值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁四维科技发展有限公司，未经辽宁四维科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201410126594.0/，转载请声明来源钻瓜专利网。

上一篇：用于使用多个无线接口的无线点对点通信的方法和设备
下一篇：一种磁性六连杆机构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于代表词知识库的文本内容分类方法有效

专利文献下载