[发明专利]基于海量数字图书的知识脉络自动构建方法有效
申请号: | 201710945019.7 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107908650B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 鲁伟明;马朋坤;魏宝刚;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06N5/02;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 数字 图书 知识 脉络 自动 构建 方法 | ||
1.一种基于海量数字图书的知识脉络自动构建方法,其特征在于,包括以下步骤:
1)图书预处理:将数字图书的元数据信息存储到Lucene索引文件中;用XML解析器将目录的结构解析出来,并清洗目录标题中的冗余信息;
2)知识单元构建:对于用户检索主题q,从步骤1)中构建的Lucene索引中查询出相关图书集合,将相关图书的所有一级目录标题进行分词处理,通过word2vec方法得到词语的向量表示,对目录标题中的主题词和描述词分别赋予不同的权重,最终用加权的方式计算目录标题之间的相似度;通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合;
3)知识图构建:用步骤2)中构建的知识单元作为结点,用图书中章节之间的偏序关系构建结点之间的邻接关系构成有向图,即知识图;
4)学习路径选择:使用动态规划算法遍历步骤3)得到的知识图,得到所有的学习路径,引入信息度和流畅度计算公式,信息度衡量路径中是否包含重要的结点和重要的结点对,知识单元对{oi,oi+1}的信息度w(oi,oi+1)计算公式如下:
其中,freq(oi)指知识单元oi中包含的目录数,dif(b,i)指知识单元oi和oi+1中同属于书b中的两个目录之间的距离,如果两个目录和在同一本书b中,且它们又分别属于知识单元oi和oi+1,那么表示目录在书b中的相对位置,否则,dif(b,i)=∞;Bq表示用户检索主题q相关的图书集合;
路径的信息度I(pi)计算公式如下:
其中,|pi|为路径pi的长度,s为路径开始,e为路径结束;
流畅度衡量学习路径中知识单元之间顺序的质量,对于路径使用语言模型来计算其流畅度F(pi),计算公式如下:
其中,p(oi|oi-2oi-1)指给定oi-2oi-1的情况下出现oi的概率,c(oi-2oi-1oi)指知识单元oi-2,oi-1,oi同时出现的次数;
路径pi的打分s(pi)=I(pi)·F(pi),用整数线性规划优化框架选择最好的TOP K条学习路径,求解器的目标函数如下:
其中,|Pq|表示用户检索主题q相关的路径集合Pq的数量,di是一个二进制变量,取值为0或1,取决于路径pi是否被选择;
约束条件如下:
a)确保只有不超过K条路径被选择:
b)如果两条路径的相似度sim(pi,pj)大于等于阈值那么只有一条可以被选择,即:
其中,sim(pi,pj)使用jaccard相似度公式计算;
最终,从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径;
5)知识脉络可视化:将步骤4)选择出的学习路径构成的知识脉络进行可视化展示。
2.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法,其特征在于,所述的步骤1)中,冗余信息指章节号,使用正则表达式对其进行清洗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710945019.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分类的控制方法
- 下一篇:一种分布式集群的审计方法