[发明专利]二类别分类预测模型的生成方法、用于生成分类预测模型的程序以及二类别分类预测模型的生成装置有效

专利信息
申请号: 200780101995.9 申请日: 2007-12-18
公开(公告)号: CN101903895A 公开(公告)日: 2010-12-01
发明(设计)人: 汤田浩太郎 申请(专利权)人: 富士通株式会社
主分类号: G06N5/04 分类号: G06N5/04;G06N3/00
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 黄纶伟;吕俊刚
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 类别 分类 预测 模型 生成 方法 用于 程序 以及 装置
【说明书】:

技术领域

本发明涉及用于生成针对未知类别的样本的分类预测模型的方法、生成程序以及生成装置。

背景技术

类别分类问题是指,根据已知属于多个类别中的哪个类别的样本集合,学习用于按其类别进行分类的规则,将所学习的规则用作预测模型的形式,针对未知属于哪个类别的样本,预测其所属的类别。特别是,将样本集合分类为2个类别的二类别分类是分类问题中最基本的,长年用于结构-活性相关和结构-物性相关研究,最近作为评价有无化合物毒性等的有用方法受到关注。用于学习规则的方法即分类方法包括线性学习机、判别分析、Bayes线性判别分析、SVM(支持矢量机,Support VectorMachine)、AdaBoost等线性判别分析方法、以及Bayes非线性判别分析、SVM(支持矢量机+核,Support Vector Machine+Kernel)、神经网络、KNN法(最邻近法)、决策树等非线性判别分析法。

一般而言,在类别分类问题中,必然产生错误分类,使分类率达到100%是非常困难的。这里,“分类率”是表示以何种程度正确地对已知归属类别的样本进行了类别划分的指标,“预测率”是表示以何种程度正确地对未知归属类别的样本进行了类别预测的指标。基本上,“分类率”不会低于“预测率”。因此,如果提高“分类率”,则“预测率”的上限也自动地提高。根据该事实,如果能够使分类率达到很高的值,则预测率也会提高。另外,作为数据解析的一般特征,还公知有下述情况,即:随着生成预测模型时使用的样本个数增加,被错误分类的样本也增多,其结果是整体的分类率降低。这里,错误分类是指,把本来属于类别1的样本错误地分类为属于类别2的样本的情况。其很大原因在于,由于整体的样本个数增加而导致在分类上成为噪声的样本的绝对个数也增加。与统计不同,在多变量解析/模式识别那样的强大数据解析方法中,容易受到噪声影响,在大多数情况下,样本个数增大会导致数据解析本身难以进行的结果。

作为要求很高的分类/预测率的领域,化合物毒性评价在环境方面正在受到重用。在该领域中,往往是将化合物组分类为具有毒性的化合物集合(类别1)和不具有毒性的化合物集合(类别2),但是作为该领域的特征,用于发现毒性的因素复杂且涉及多方面,因此容易产生错误分类,如果简单地应用当前存在的数据解析方法,则提高分类率是非常困难的。

另外,即使分类率的值很高,当使用的样本个数很多时错误分类样本的绝对个数也会增大,因此关于这一点需要注意。例如,在对毒性化合物和非毒性化合物进行分类的情况下,当用于学习的样本个数很多时,例如使用1万个化合物集合进行分类时,即使得到90%的分类率,也会有1千个化合物被错误分类,该数量不能被忽视。并且,作为毒性分类的情况的特征,即使将不具有毒性的化合物错误分类为具有毒性(FalsePositive,错误肯定)也不会有很大影响,但是将毒性化合物错误分类为非毒性化合物(False Negative,错误否定)的情况在毒性这种特性上非常危险,是绝对需要避免的问题。关于这一点,也期望分类率为100%。

因此,当前,虽然预测率是类别分类问题的最终目标,但人们意识到相比于预测率首先提高分类率更加重要,并为此正在进行各种努力。如上所述,如果从预测率不会超过分类率的原则考虑,在提高分类率的同时,预测率的可上升范围也会增大的情况是明确的。本发明人着眼于这一点,提出了能够使分类率无限接近100%的分类方法,即“K-step·Yard·sampling·method”(以下,称为KY法)(非专利文献1、PCT/JP2007/056412)。

简单地对该方法进行说明,首先,由已知属于第1类别的样本和已知属于第2类别的样本构成学习样本集合。对该学习样本集合进行判别分析,形成对于第1类别具有高分类率例如实质性上100%的分类率的第1判别函数(以下称为AP模型),形成对于第2类别具有高分类率例如实质性上100%的分类率的第2判别函数(以下称为AN模型)。接着,使用这两个判别函数AP模型、AN模型,计算各样本的目标变量,确定在两个判别函数间目标变量的值即分类结果一致的样本和不一致的样本。

AP模型、AN模型对于第1类别或第2类别具有几乎100%的分类率,因此对于使用了AP模型以及AN模型而得到的分类结果一致的样本,判断为其类别分类正确。因此,将结果一致的样本指定为分类后的类别1或类别2。另一方面,将在AP模型、AN模型中结果不一致的样本指定为未决定类别的第3类别即模糊类别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200780101995.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top