[发明专利]一种基于高考大数据的院校录取成绩预测方法在审
申请号: | 202010218247.6 | 申请日: | 2020-03-25 |
公开(公告)号: | CN111210096A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 蔡世民;陈枭;张智成;王晨曦 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/20;G06N20/00 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高考 数据 院校 录取 成绩 预测 方法 | ||
该发明公开了一种基于高考大数据的院校录取成绩预测方法,属于数据挖掘领域。本发明提取了高考数据中影响录取成绩的重要特征:专业数、计划数以及录取级差。计划数是指当年各院校文理各科总招生人数;录取级差是指院校录取考生中最高分与最低分的差值。除此以外,基于高考志愿填报的特点,本发明还考虑到各高校之间会有竞争关系的存在,即某一高校的招生人数变化,影响到其他高校的录取情况。本发明提供的模型先使用同位分法进行预测,得到粗略预测值;再利用上述重要特征,使用集成学习模型,拟合出录取成绩变化率,与粗略预测值结合,得到初步预测值;最后利用无监督聚类模型对高校进行划分,拟合高校间的竞争关系,调整初步预测值,得到最终预测结果。
技术领域
本发明涉及数据挖掘领域,更具体的,涉及基于高考大数据的院校录取成绩预测模型。
背景技术
高考是普通高等学校招生全国统一考试的简称,是中国学子想要实现大学梦唯一的公平途径,而志愿填报是其中极为关键的环节之一。如果志愿填报不合理,往往会出现分数高于院校录取线,导致分数浪费;或是分数低于院校录取线,导致落榜。
较为传统的录取线预测方式有同位分法,线差法,线性回归法。同位分法是将往年的录取线通过一分一段表(每个分数对应的位次)转换为录取位次,再利用当年的一分一段表,将往年录取位次映射到当年的录取分数,得到预测值;线差法是求往年录取分与批次线的差值,再求该差值与当年批次线之和,得到录取线。两种方法均简单易行,通过手动计算便可得出。虽然部分预测结果较为准确,但是其将所有高校作为一个整体静态的模型,默认所有高校录取线相对稳定,忽略了每年因为各种原因发生浮动的现象,导致总体预测精度不高;线性回归法是确定年份与录取线的依赖关系,建立线性模型,而这种方法过于依赖大量的历史数据,且容易受到外部因素干扰,因此性能不佳。
发明内容
本发明提供了一种基于高考大数据的院校录取成绩预测模型。通过使用各类统计机器学习模型进行组合,得出性能较好的预测模型,通过历史高考数据对模型进行训练,使模型能够精准地预测当年各高校的录取成绩。
本发明提取了高考数据中影响录取成绩的重要特征:专业数、计划数以及录取级差。计划数是指当年各院校文理各科总招生人数;录取级差是指院校录取考生中最高分与最低分的差值。除此以外,基于高考志愿填报的特点,本发明还考虑到各高校之间会有竞争关系的存在,即某一高校的招生人数变化,影响到其他高校的录取情况。
本发明提供的模型先使用同位分法进行预测,得到粗略预测值;再利用上述重要特征,使用集成学习模型(如非线性回归模型GBDT),拟合出录取成绩变化率,与粗略预测值结合,得到初步预测值;最后利用无监督聚类模型(如谱聚类)对高校进行划分,拟合高校间的竞争关系,调整初步预测值,得到最终预测结果。
本发明提出的一种基于高考大数据的院校录取成绩预测方法,包含以下步骤:
步骤1:回归模型训练;
根据已有的数据,以作为输入,作为输出,对回归模型进行训练,得到训练好的回归模型;
其中:jn表示第n年高校的招生人数,zn表示第n年z高校的专业数,gn-1表示第n-1年的录取最高分与录取最低分的差值;rn表示第n年高校的录取分位次;
步骤2:生成稳定高校集合与非稳定高校集合;
根据高校历年录取成绩,判断其波动幅度是否小于阈值,若是,则认为该高校是稳定的,将其加入集合S中;否则认为该高校是不稳定的,将其加入集合NS中;
步骤3:对步骤2集合S中高校的录取分的初步预测;
采用高校第n年的同位分作为第n+1年的录取分的初步预测值,转步骤5;其中同位分的计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010218247.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置