[发明专利]一种机器主动学习方法及学习系统有效
申请号: | 201710855853.7 | 申请日: | 2017-09-20 |
公开(公告)号: | CN107729921B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 蔡振华;肖龙源;朱敬华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06N20/00 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361009 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器 主动 学习方法 学习 系统 | ||
本发明公开了一种机器主动学习方法及学习系统,其通过对原始语料数据进行聚类处理,得到分类语料数据;根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;对所述推荐语料数据进行人工标注,得到标注语料数据;将所述标注语料数据输入测试模型进行机器学习,并输出学习结果;从而将监督学习与无监督学习进行有机结合,在保证较好的学习效果的基础上,极大的减少了人工标注的工作量,提高了学习效率。
技术领域
本发明涉及机器学习技术领域,特别是一种机器主动学习方法及其应用该方法的系统。
背景技术
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机实现智能化、自动化的根本途径,其应用遍及人工智能的各个领域。
目前,机器学习的方法主要有两种,分别是监督学习和无监督学习。无监督学习是完全不干涉其学习内容,让机器自主、自由学习数据,节省大量人力成本,但其最终学习的效果不好;监督学习是人为的筛选、准备数据让机器去学习,虽然学习效果较好,但前期需要花费较多的人力去准备机器学习的数据。
如何能够让人工挑选最值得学习的语料数据让机器去学习,以实现监督学习和无监督学习二者之间的平衡,是本发明所解决的问题所在。
发明内容
本发明为解决上述问题,提供了一种机器主动学习方法及学习系统,将监督学习与无监督学习进行有机结合,在保证较好的学习效果的基础上,极大的减少了人工标注的工作量,提高了学习效率。
为实现上述目的,本发明采用的技术方案为:
一种机器主动学习方法,其包括以下步骤:
a.对原始语料数据进行聚类处理,得到分类语料数据;
b.根据预设规则自动推荐所述分类语料数据,得到推荐语料数据;
c.对所述推荐语料数据进行人工标注,得到标注语料数据;
d.将所述标注语料数据输入测试模型进行机器学习,并输出学习结果。
优选的,进一步包括以下步骤:
e.将所述学习结果再次加入所述推荐语料数据,并重复步骤c、d;
f.当所述测试模型的性能指数达到预设要求时,终止学习。
优选的,所述步骤f包括:
f1.当所述测试模型的性能指数达到预设值时,终止学习;和/或
f2.当所述测试模型的性能指数的提升值小于预设阈值时,终止学习。
优选的,所述的步骤b中,是指将一个以上的分类语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的分类语料数据自动推荐为所述推荐语料数据。
优选的,所述学习结果包括:所述分类语料数据的所属类别以及对应的置信度;所述置信度较大则表示学习结果的准确率较高,所述置信度较小则表示学习结果的准确率较低;将置信度小于预设的置信度阈值的分类语料数据自动推荐为所述推荐语料数据,和/或,将所述所属类别与聚类类别不一致的分类语料数据自动推荐为所述推荐语料数据。
优选的,所述的步骤e中,将所述学习结果再次加入所述推荐语料数据,是指将一个以上的标注语料数据分别利用测试模型进行机器学习,并根据学习结果的准确率,将准确率低于预设值的标注语料数据自动推荐为所述推荐语料数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710855853.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可拆卸式道闸系统补光设备
- 下一篇:一种识别取证车辆是否变道插队的方法