[发明专利]文本分类参数生成器和使用所生成参数的文本分类器无效

专利信息
申请号: 01145408.3 申请日: 2001-12-28
公开(公告)号: CN1363899A 公开(公告)日: 2002-08-14
发明(设计)人: 福重贵雄;菅野祐司;饭冢泰树;玉利公一 申请(专利权)人: 松下电器产业株式会社
主分类号: G06F17/30 分类号: G06F17/30;G06F17/21
代理公司: 上海专利商标事务所 代理人: 赵国华
地址: 日本国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 参数 生成器 使用 生成
【说明书】:

技术领域

本发明总体涉及一种文本分类器,用于将给定文本分类到特定的一个或多个预定类别,具体来说,涉及一种用于生成和训练(或优化)这种文本分类器中所用参数的方法和系统。

背景技术

存储于某些基于计算机系统中的文本数据其数量和种类正日益增加。所存储的这种自然语言文本数据包括学术论文、专利文档、新闻文章等。为了使所存储文本数据作为信息有效地利用,必须将所存储文本数据的每个项目分类成为相应类别。为了该用途,至此已提出了各种类型的文本分类器。

本发明涉及一种文本分类技术,尤其涉及利用向量空间这种文本分类技术。基于向量空间的文本分类技术揭示于例如以下文献:

1997年9月23日授予J.A.Catlett等人、发明名称为“训练装置和方法”的美国专利U.S.Pat.No.5,671,333;

2001年2月20日授予S.T.Dumais等人、发明名称为“用于文本分类和文本建立的方法和装置”的美国专利U.S.Pat.No.6,192,360,所介绍的多种分类技术包括支持向量机的理论和操作;

N.Nomura的发明名称为“用于文档处理和存储媒体存储的设备和方法”的日本专利申请公开公报11-053394(1999);以及

K.Mitobe等人的发明名称为“相似性显示设备、用相似性显示程序存储的存储媒体、文档处理器、用文档处理程序存储的存储媒体以及文档处理方法”的日本专利申请公开公报2000-194723(2000)。

在此通过引用上述全部参考文献作为参照。

基于向量空间的文本分类器中,通过由一向量集V1,V2,…,VM构成的基底形成M-维向量空间,所述一向量集V1,V2,…,VM与构成词典的M个字W1,W2,…,WM相对应。向量空间中的一个点表达要分类目标或文本。具体来说,要分类的文本或文档表达为一是基底(V1,V2,…,VM)的线性组合的特征向量(或文献向量)。给定文本特征向量的每一分量用与该分量相关联的字在给定文本中的出现频率来表达。目标文本分类为的类别集中每一类别由对该类别定义的基准向量来表达。同样,每一基准类别也按基底(V1,V2,…,VM)的线性组合表达。通过求出给定文本特征向量和类别基准向量的内积求出两个向量之间的距离,来计算给定文本相对于类或类别的接近程度。根据所计算的接近程度确定给定文本是否属于该类别。

对要分类文档集中的文档特征向量进行管理得到的文档-字矩阵通过奇异值分解应用较低等级近似法可降低特征向量的维数。目标文档的这种降低维数的特征向量其每个分量不是反映字本身频率,而是反映目标文档与一(加权)字集相关程度。这种情况下,诸如距离计算、内积计算这种算术运算按与原始向量空间情形相同方式是可行的。

基于向量空间的分类器根据与各个类别相关联的基准向量以及在该量值内文档便分类为特定类别的接近程度的量值(或阈值),来改变文档是否属于特定类别的结果或判定。将一类别集中所有类别的基准向量的分量以及接近程度的阈值称为“分类参数”。为了实现正确的分类,必须正确地确定或优化分类参数。

传统参数训练中,通过用具有粗略确定的初始分类参数的分类器对样本(即选定用于训练的文档)进行分类。复查分类结果,再修改分类参数。迭代这个试-错过程直到获得满意的分类。这种对分类参数的修改可通过操作员直接由其本人修改参数来实现,或通过操作员校正分类结果、分类器再通过基于操作员校正的机器学习重新计算参数来实现。

但直接修改方案中,操作员难以知道大量参数中要修改哪些参数以及如何修改所选定用于修改的一个或多个参数。而分类结果校正方案中,操作员则难以知道大量分类结果中要校正哪些分类结果。这些困难使得分类参数修改成为不一定生成所希望分类参数的费时任务。

所作出的本发明正是要克服该技术领域中的上述问题和其他问题。

所需要的是一种使操作员能够通过各种数据分析及选择工具交互并有效地训练分类参数的分类参数生成方法和系统。

所需要的是一种可用于将类别的每个基准向量视为指出的是统计分布点而非固定点这种情形的分类参数生成方法和系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于松下电器产业株式会社,未经松下电器产业株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/01145408.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top