[发明专利]一种文本分类方法及装置有效

专利信息
申请号: 200910088411.X 申请日: 2009-06-29
公开(公告)号: CN101937436A 公开(公告)日: 2011-01-05
发明(设计)人: 张翼;陈儒;王震;高立琦;刘桂平 申请(专利权)人: 华为技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京凯特来知识产权代理有限公司 11260 代理人: 郑立明
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 分类 方法 装置
【说明书】:

技术领域

发明涉及文本挖掘技术领域,尤其涉及一种文本分类方法及装置。

背景技术

在线论坛是当代网络生活的典型参与方式之一,随着帖子数量的增多,越来越需要一种机制将发布的帖子分门别类,既方便论坛内容管理,又大大方便用户选择感兴趣的主题贴。目前很多论坛都有分类功能,但大部分是依靠用户在发布帖子时选择类别或提供标签,这种方式存在的问题是,很多用户并不愿意主动选择类别或提供标签,另外也有用户为了提高帖子阅读量,故意提供很多无关标签。

基于上述问题,需要对在线论坛的帖子进行文本分类,文本分类(Text Classification、Text Categorization)是指按照一定算法,对用文字表示的文档赋予一个或多个预先定义的类别名称的过程。对每个文本只指定一个类别称“硬分类”,指定多个类别则为“软分类”,若不加说明以下均指硬分类。现有的分类包括基于规则的分类和基于统计学习两大类。而由于在线论坛的帖子大部分帖子比较短,其特点是特征数少、用词不规范、大量省略类别相关的背景知识等,这类帖子往往不具备统计信息,不能使用基于统计学习的分类。因此一般使用基于规则的分类算法。

基于规则的分类算法,其规则形式化表示为<w1,w2,...wr,C>,意为当一篇文本中出现w1,w2,...wr这些词,则分到类别C中。

在发明人实现本发明过程中,发现现有的基于规则的分类算法至少存在如下问题:

1)存在较大冗余。该类算法只关注一些特征项的组合是否具有较好的分类能力,这样只要特征项集中的每个元素都有较好分类能力,则集合元素的任何一种组合都具有较好分类能力,其后果是在某些情况下,挖掘出的规则数量呈指数增长。

2)可能被“偶然地”满足。组成规则的项之间没有相互关系,这意味着在应用于实际分类时,只要这些特征项在一篇文本中同时出现了,就认为该文本满足该规则。例如,假设有规则“感情&世界→情感”,意为当文本同时出现“感情”和“世界”时则分到“情感”类,在将其应用到句子“玩《魔兽世界》真是浪费感情。”上时就“偶然地”被满足了,而实际上该处的“感情”和“世界”是没有语义上的关系的,它真正的类别应该是“游戏”。

发明内容

本发明实施例提供一种文本分类方法及装置,对在线论坛的帖子进行文本分类时,实现分类精确度高,冗余度小。

本发明实施例是通过以下技术方案实现的:

一种文本分类方法,包括:对待分类文本进行分句,对每个句子进行依存句法分析,抽取出所有依存对作为抽取的决策单元;从知识库检索所述抽取的决策单元所属的类别,所述知识库中存储有作为分类依据的决策单元及所属的类别及权值;按类别累加所述抽取的决策单元权值之和;将所述权值之和最大的类别作为待分类文本的类别。

一种文本分类装置,包括:获取单元,用于对待分类文本进行分句,对每个句子进行依存句法分析并抽取出所有依存对作为抽取的决策单元;检索单元,用于从知识库检索所述抽取的决策单元所属的类别,所述知识库中存储有作为分类依据的决策单元及所属的类别及权值;计算单元,按类别累加所述抽取的决策单元权值之和;类别确定单元,用于将所述权值之和最大的类别作为待分类文本的类别。

由上述本发明实施例提供的技术方案可以看出,本发明实施例提供的文本分类方法及装置,实现了避免出现“偶然”共现的词,造成分类错误的现象,其分类精确度高,冗余度小。

附图说明

图1为本发明实施例文本分类方法流程图;

图2为本发明冲突消解处理实施例中依存分析树示意图;

图3为本发明实施例知识库建立流程图;

图4为本发明实施例一个句子依存分析树示意图;

图5为本发明实施例另一个句子依存分析树示意图;

图6为本发明实施例文本分类装置结构示意图;

图7为本发明实施例知识库建立单元结构示意图;

图8为本发明实施例冲突消解单元结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,可以理解的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种文本分类方法,如图1所示,包括如下步骤:

步骤10:对待分类文本进行分句,对每个句子进行依存句法分析,抽取出所有依存对作为抽取的决策单元;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910088411.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top