[发明专利]基于半监督学习的大规模网络开放课程退课预测算法在审

专利信息
申请号: 201510967503.0 申请日: 2015-12-21
公开(公告)号: CN105631536A 公开(公告)日: 2016-06-01
发明(设计)人: 江峰;李文涛 申请(专利权)人: 重庆工商职业学院
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q50/20;G06K9/62
代理公司: 重庆信航知识产权代理有限公司 50218 代理人: 穆祥维
地址: 400052 *** 国省代码: 重庆;85
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 监督 学习 大规模 网络 开放 课程 预测 算法
【权利要求书】:

1.基于半监督学习的大规模网络开放课程退课预测算法,其特征在于, 包括如下步骤:

S1:从MOOC网站获取用户的学习日志文件,获取的用户一部分构成测 试样本集,另一部分构成训练样本集,其中测试样本集中的测试样本全部是 已标记样本,该训练样本集中包括未标记样本和已标记样本,所有未标记样 本构成未标记样本集,所有已标记样本构成标记样本集;

S2:根据用户的学习日志文件统计训练样本集中所有样本的行为特征, 得到最能表达训练样本集中所有样本共有特性的n种行为特征;

设某一课程的课程持续时间为K周;

设Ui={U(i,1),....,U(i,j),....,U(i,n)},Ui表示训练样本集中的第i个样本, U(i,j)={(U(i,j)1,....U(i,j)k....U(i,j)K)},U(i,j)表示训练样本集中第i个样 本的第j种行为特征向量,U(i,j)k表示第i个用户的第j种行为特征在课程持 续时间的第k周出现的次数;

S3:从n种行为特征中随机选取m种行为特征,并采用下述方式获得R 种分类器,其中,m≤n,R=Cnm=n!m!(n-m)!,r=1,2,3...R;]]>

R种分类器的获得方式如下:

S301:设r=1;

S302:j=1;

S303:v=1;

S304:设Prj(C|U(i,j))为训练样本集中第i个样本在第j种行为特征下被 标注为C的概率,其中,被标注C=0的样本表示存留用户,被标注C=1的样 本表示退课用户;

S305:选择未标记样本集中第j种行为特征下的所有未标记样本,第j种 行为特征下所有未标记样本形成的集合Uj,分别计算集合Uj中每个未标记样 本的Prj(C=0|U(v,j)k)和Prj(C=1|U(v,j)k),其中v=1,2,...,|Uj|,|Uj|表示集合 Uj中样本的总数;

Prj(C=0|U(v,j))=Prj(U(v,j)|C=0)·Prj(C=0)Prj(U(v,j))---(1);]]>

Prj(C=0)=|Lj,C=0||Uj|+|Lj|---(1a);]]>

其中,|Lj,C=0|表示在第j种行为特征下已标记样本集中被标注C=0的样本 的总数,Lj表示第j种行为特征下所有已标注样本形成的集合,|Lj|表示集合Lj中样本的总数,|Uj|+|Lj|表示第j种行为特征下训练样本集中样本的总数;

Prj(U(v,j)|C=0)=Prj(U(v,j)1|C=0)·Prj(U(v,j)2|C=0),...,(1b);

Prj(U(v,j)k|C=0),...Prj(U(v,j)K|C=0)

Prj(U(v,j)k|C=0)=|Lj,C=0(U(v,j)k)||Lj,C=0|---(1b-1);]]>

其中,|Lj,C=0|表示在第j种行为特征下已标记样本集中被标注C=0的样本 的总数,|Lj,C=0(U(v,j)k)|表示在第j种行为特征下已标记样本集中被标注C=0 的样本中,在课程持续时间的第k周出现第j种行为的次数为U(v,j)k的样本 的总数;

Prj(C=1|U(v,j))=Prj(U(v,j)|C=1)·Prj(C=1)Prj(U(v,j))---(2);]]>

Prj(C=1)=|Lj,C=1||Uj|+|Lj|---(2a);]]>

其中,|Lj,C=1|表示在第j种行为特征下已标记样本集中被标注C=1的样本 的总数;

Prj(U(v,j)|C=1)=Prj(U(v,j)1|C=1)·Prj(U(v,j)2|C=1),...,(2b);

Prj(U(v,j)k|C=1),...Prj(U(v,j)K|C=1)

Prj(U(v,j)k|C=1)=|Lj,C=1(U(v,j)k)||Lj,C=1|---(2b-1);]]>

其中,|Lj,C=1|表示在第j种行为特征下已标记样本集中被标注C=1的样本 的总数,|Lj,C=1(U(v,j)k)|表示在第j种行为特征下已标记样本集中被标注C=1 的样本中,在课程持续时间的第k周出现第j种行为的次数为U(v,j)k的样本 的总数;

Prj(U(v,j))=P(U(v,j)|C=0)·P(C=0)(3);

P(U(v,j)|C=1)·P(C=1)

输出Prj(C=0|U(v,j)k)和Prj(C=1|U(v,j)k);

S306:令v=v+1;

S307:当v>|Uj|时,执行下一步,否则返回步骤S304;

S308:max{Prj(C=0|U(v,j))}=max{Prj(C=0|U(v,j)),v=1,2,3...uj}, 将max{Prj(C=0|U(v,j))}对应的未标记样本从集合Uj中剔除,同时将 max{Prj(C=0|U(v,j))}对应的未标记样本移入集合Lj,并将 max{Prj(C=0|U(v,j))}对应的未标记样本标注C=0;

max{Prj(C=1|U(v,j))}=max{Prj(C=1|U(v,j)),v=1,2,3...TUj},将 max{Prj(C=1|U(v,j))}对应的未标记样本从集合Uj中剔除,同时将 max{Prj(C=1|U(v,j))}对应的未标记样本移入集合Lj,并将 max{Prj(C=1|U(v,j))}对应的未标记样本标注C=1;

S309:更新第j种行为特征下所有未标记样本形成的集合Uj和第j种行 为特征下所有已标注样本形成的集合Lj,令|Uj|=|Uj|-2,|Tj|=|Tj|+2;

S310:|Uj|≥2时,返回步骤S303,否则执行下一步;

S311:令j=j+1;

S312:当j>m时,输出当前已标记样本集,并执行下一步;否则返回步 骤S303;

S313:令r=r+1;

S314:当r>R时,执行下一步;否则返回步骤S302;

S4:选择最优的分类器

S401:获取步骤S1中的测试样本集,该测试样本集中共有H个测试样本, h=1,2,…H;

S402:令r=1;

S403:令h=1;

S404:根据公式(4)计算Ph(C=0|U(v,j)):

Ph(C=0|U(v,j))=Σj=1mPrj(C=0|U(v,j))---(4);]]>

根据公式(5)计算Ph(C=1|U(v,j)):

Ph(C=1|U(v,j))=Σj=1mPrj(C=1|U(v,j))---(5);]]>

S405:如果Ph(C=0|U(v,j))≥Ph(C=1|U(v,j)),则将第h个测试样本 标注C=0,否则标注C=1,输出标记后的第h个测试样本;

S406:令h=h+1;

S407:如果h>H,则执行下一步,否则返回步骤S404;

S408:计算第r个分类器的准确率ηr,其中S=H表示使用第r 个分类器进行标注的次数,S’表示使用第r个分类器标注正确的次数;

S409:令r=r+1;

S410:如果r>R,则执行下一步,否则返回步骤S403;

S411:max{ηr}=max{ηr,r=1,2,3...R},max{ηr}对应的分类器为标注准 确率最高的分类器,最后输出max{ηr}对应的分类器,该分类器记为

S5:对于任意一个未标记的用户Ux,根据其学习日志文件,获取该用户 的n种行为特征,选定步骤S411输出的分类器,然后根据公式(6)计算 PUx(C=0|U(1,j));]]>

PUx(C=0|U(1,j))=Σj=1mPrmaxj(C=0|U(1,j))---(6);]]>

根据公式(7)计算

PUx(C=1|U(1,j))=Σj=1mPrmaxj(C=1|U(1,j))---(7);]]>

如果PUx(C=0|U(1,j))PUx(C=1|U(1,j))]]>则将用户Ux标注C=0,否则 注C=1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆工商职业学院,未经重庆工商职业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510967503.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top