[发明专利]一种基于智能模型小数据量样本自动优化量表的方法及装置在审
| 申请号: | 202011275989.9 | 申请日: | 2020-11-16 |
| 公开(公告)号: | CN113553816A | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 陈立典;李湄珍;雷彪;陈智轩;陶静;杨珊莉;薛偕华;吴劲松;姚凌翔;余滢 | 申请(专利权)人: | 厦门市和家健脑智能科技有限公司;福建中医药大学 |
| 主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F16/332;G06N20/00 |
| 代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
| 地址: | 361008 福建省厦门*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 智能 模型 数据量 样本 自动 优化 量表 方法 装置 | ||
1.一种基于智能模型小数据量样本自动优化量表的方法,其特征在于,该方法包括:
初始化步骤,设计具有N个问题的量表,其中,每个问题的编号为QI;
预处理步骤,通过客户端采集用户对所述量表的作答结果并处理为一特征向量;
压缩步骤,使用多个不同的机器学习模型对所述特征向量进行处理后将所述N个问题压缩为M个问题以形成新的量表,其中,M≤N。
2.根据权利要求1所述的方法,其特征在于,所述对所述量表的作答结果并处理为一特征向量的操作为:对所述调查数据进行自动化数据清洗后每个问题的需采集的数据录入问答结果QI_j,其中j≤N,每个问答结果包括作答字符、作答数值、作答时间响应、空值和缺失值,所有问题的问答结果形成一数据表,每一列数值数据作为一个特征,所有的特征构成一特征向量,并对所述用户添加标签,将所述标签与特征向量对应构成样本数据。
3.根据权利要求2所述的方法,其特征在于,所述压缩步骤的操作为:
构建K个不同的机器学习模型,所述K个不同的机器学习模型的综合准确率为ScoreN,针对每一个问题QI,从所述K个不同的机器学习模型的模型中选择最优的5个机器学习模型对所述样本数据进行处理,取得分最高的N-1个问题QI,去掉其余的问题,组合成新量表,使用所述N-1个问题QI对应的特征向量对K个不同的机器学习模型进行重训练,此时,K个不同的机器学习模型的综合准确率为ScoreN-1,判断ScoreN-ScoreN-1是否小于一阈值,同时和初始Score0相比,ScoreN–Score0也小于该阈值,如果是,则使用N-1个问题组合成的新量表发布后供用户作答后再执行预处理步骤和压缩步骤,直到将所述问题的个数压缩到M个,其中K≥50。
4.根据权利要求3所述的方法,其特征在于,所述选择最优的5个机器学习模型对所述样本数据进行处理的操作为:
计算所述最优的5个机器学习模型中的每个模型的中该问题QI对应的特征的重要列得分;
根据所述最优的5个机器学习模型中的每个模型计算的该问题QI的单项得分进行排序,其中,QI的得分为QI_j中重要列得分按降序排前5的机器学习模型得分的平均值。
5.根据权利要求4所述的方法,其特征在于,所述阈值为1%。
6.一种基于智能模型小数据量样本自动优化量表的装置,其特征在于,该装置包括:
初始化单元,设计具有N个问题的量表,其中,每个问题的编号为QI;
预处理单元,通过客户端采集用户对所述量表的作答结果并处理为一特征向量;
压缩单元,使用多个不同的机器学习模型对所述特征向量进行处理后将所述N个问题压缩为M个问题以形成新的量表,其中,M≤N。
7.根据权利要求6所述的装置,其特征在于,所述对所述量表的作答结果并处理为一特征向量的操作为:对所述调查数据进行自动化数据清洗后每个问题的需采集的数据录入问答结果QI_j,其中j≤N,每个问答结果包括作答字符、作答数值、作答时间响应、空值和缺失值,所有问题的问答结果形成一数据表,每一列数值数据作为一个特征,所有的特征构成一特征向量,并对所述用户添加标签,将所述标签与特征向量对应构成样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市和家健脑智能科技有限公司;福建中医药大学,未经厦门市和家健脑智能科技有限公司;福建中医药大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011275989.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像感测设备
- 下一篇:氟代烷基磺酸内酯的制备方法





