[发明专利]基于代表词知识库的文本内容分类方法有效

专利信息
申请号: 201410126594.0 申请日: 2014-03-31
公开(公告)号: CN103838886A 公开(公告)日: 2014-06-04
发明(设计)人: 孙宏;赵晓波;季海东;董童霖;赵宇龙 申请(专利权)人: 辽宁四维科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 沈阳杰克知识产权代理有限公司 21207 代理人: 罗莹
地址: 110043 辽宁省*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于“代表词知识库”的文本内容分类方法,属于数据分析和内容分类领域。本发明采用人工智能专家系统的方法,通过对待分类页面WPage的构成特征向量,计算与已经分类完的“代表词知识库”Wbase(CK)中知识的最短距离D(Cmin)和相似度Sk;,根据预置的阈值来判断WPage归属哪一类,从而达到分类的目的。对代表词分类知识库的更新,使系统变得越来聪明,不仅提高了内容分类的效率,更重要是提高了内容分类的覆盖面和准确程度。
搜索关键词: 基于 代表 知识库 文本 内容 分类 方法
【主权项】:
1.基于代表词知识库的文本内容分类方法,其特征在于,包括:(1)首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出合并后代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…},其中i=1、2、…、M,M为页面中代表词数;若WPage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage:(2)从“代表词分类知识库”中读取所有的分类知识:WBase(Ck)={(w1k,f1k),(w2k,f2k),···,(wjk,fjk),···}]]>其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,为第Ck类第j个代表词对应的频度;(3)计算待文本页面特征向量WPage与所有类别Wbase(CK)的距离D(CK),同时计算出其中最短的距离D(Cmin)和相似度SkD(ck)=Σi=1MΣj=1N(fi-fjk)2]]>D(cmin)=Min{Σk=1LD(ck)}]]>Sk=Σj=1Mfjk-D(cmin)Σj=1Mfjk]]>(4)进行文本分类:当Mk<Sk≦1时,内容分类成功,将成功分类结果Wnew(Ck)={(w1k,f1k),(w2k,f2k),···,(wik,fik),···}]]>存储到“内容分类结果”文件中,同时更新维护代表词知识库;当Sk≦Mk时,内容分类失败,结束分类。其中Mk是预先设置在0-1之间的相似度阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁四维科技发展有限公司,未经辽宁四维科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410126594.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top