[发明专利]一种基于共词分析和聚类分析的学习需求分析的方法有效
申请号: | 201810964384.7 | 申请日: | 2018-08-23 |
公开(公告)号: | CN109255026B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 赵波;闫旭;王俊;甘健侯 | 申请(专利权)人: | 云南师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 王娟 |
地址: | 650500 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分析 聚类分析 学习 需求 方法 | ||
1.一种基于共词分析和聚类分析的学习需求分析的方法,其特征在于:所述方法的具体步骤如下:
Step1、构建与专题相关的关键词库Topic_Key;
Step2、数据提取:将在线学习论坛中选定的一段时间内的消息导出,得到在线学习论坛的消息数据集合A={(name1,message1),(name2,message2),……,(namen,messagen)};其中,(namen,messagen)表示昵称为namen的学习者在在线学习论坛中发布了消息messagen,n表示消息数据集合中的元组数;
Step3、数据清洗:清除在线学习论坛的消息数据集合A中不属于Topic_Key集合的数据,得到经过数据清洗后的消息数据集合其中(namem,keym)表示昵称为namem的学习者在发言的消息中包含关键词keym,m表示经过数据清洗后的消息数据集合中的元组数;
Step4、数据转换:将经数据清洗后的消息数据集合的每一个元组扩展为EndNote格式的记录,得到集合
Step5、学习需求高频关键词挖掘:应用文献题录统计分析软件对集合中的关键词统计词频,得到词频集合A_KeyNum={(key1,m1),(key2,m2),……,(keyk,mk)},从A_KeyNum中选择p个词频较高的关键词,构建p个高频关键词的集合其中,(keyk,mk)表示在线学习论坛中关键词keyk出现了mk次,k表示词频集合A_KeyNum中的元组数;(keyp',Fp)表示在线学习论坛中高频关键词keyp'出现了Fp次;
Step6、构建共词矩阵:将词频集合导入文献题录统计分析软件,并构造p×p的反映高频关键词之间共同出现的频率的共词矩阵Bp×p;
Step7、社会网络图谱分析:将共词矩阵Bp×p导入软件,得到在线学习论坛的p个高频关键词构成的社会网络图谱;
Step8、构建共异矩阵:将共词矩阵Bp×p转化为相似矩阵根据相似矩阵,求得共异矩阵其中,其中I1为元素全为1的矩阵;
Step9、高频关键词聚类分析:将共异矩阵进行聚类处理,选择平方Euclidean距离作为变量距离的测量方法,选择组间平均距离联接作为聚类的方法,得到共词聚类的树状图;
Step10、学习需求层级塔构建:根据Step9中的共词聚类的树状图,将关键词进行归类处理;根据Step7的社会网络图谱,将高频关键词集合被分为三个集合KEY1,KEY2,KEY3;对于每一个分类,如果有多于一半的元素属于KEY1,则对该分类的需求最高,它就处于学习需求层级塔的最底层;否则如果有多于一半的元素属于KEY2,则该分类处于学习需求层级塔的中间层;否则如果有多于一半的元素属于KEY3,则该分类处于学习需求层级塔的最高层;
所述Step1具体为:
Step1.1、在文献数据库中以专题为主题搜索相关文献;
Step1.2、选择EndNote格式导出所有相关文献的数据集合,命名为Topic_Data数据库,Topic_Data数据库框架结构为:(%0,%A,%+,%T,%J,%D,%N,%K,%X,%P,%@,%L,%W);其中,%0—文献类型;%A—作者;%+—作者单位;%T—题目;%J—所发表杂志;%D—年代;%N—期;%K—关键词;%X—摘要;%P—页码;%@—所发表杂志的ISSN号;%L—所发表杂志的CN号;%W—文献数据库;
Step1.3、在Topic_Data数据库中,提取字段%K的所有值,得到一个与专题相关的关键词的集合,命名为Topic_Key;
Step1.4、针对Topic_Key中的每一个关键词在常知识库中搜索其近义词和同义词,并将这些近义词和同义词添加到Topic_Key中;
所述Step3具体为:
Step3.1、创建空集其元素的形式是一个二元组;
Step3.2、将消息数据集合A中的所有消息导入文字云,获得其文字云图,通过该云图获取在线学习中出现频率最高的关键词key;然后在消息数据集合A中找到关键词key所在的元组Akey=(namekey,messagekey):
①如果key不属于Topic_Key:如果messagekey中不包含除key以外的其他的关键词,就在消息数据集合A中删除元组Akey;否则仅仅删除Akey的messagekey中的关键词key,仍然保留该元组Akey;
②如果key属于Topic_Key,就在Akey=(namekey,messagekey)中,将发帖者的昵称namekey和关键词key构建一个新的元组(namekey,key),将该元组添加到集合中,同时删除messagekey中的关键词key,删除之后的messagekey中如果不包含其他的关键词了,就在集合A中删除Akey,否则仍然保留该元组Akey;
Step3.3、重复步骤Step3.2,直到消息数据集合A为空集为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南师范大学,未经云南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810964384.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种短文本分类方法
- 下一篇:一种电商评论情感分析降噪的方法和装置