[发明专利]基于海量数字图书的知识脉络自动构建方法有效

专利信息
申请号: 201710945019.7 申请日: 2017-10-12
公开(公告)号: CN107908650B 公开(公告)日: 2019-11-05
发明(设计)人: 鲁伟明;马朋坤;魏宝刚;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F16/21 分类号: G06F16/21;G06F16/22;G06N5/02;G06N20/00
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静;邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 海量 数字 图书 知识 脉络 自动 构建 方法
【权利要求书】:

1.一种基于海量数字图书的知识脉络自动构建方法,其特征在于,包括以下步骤:

1)图书预处理:将数字图书的元数据信息存储到Lucene索引文件中;用XML解析器将目录的结构解析出来,并清洗目录标题中的冗余信息;

2)知识单元构建:对于用户检索主题q,从步骤1)中构建的Lucene索引中查询出相关图书集合,将相关图书的所有一级目录标题进行分词处理,通过word2vec方法得到词语的向量表示,对目录标题中的主题词和描述词分别赋予不同的权重,最终用加权的方式计算目录标题之间的相似度;通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合;

3)知识图构建:用步骤2)中构建的知识单元作为结点,用图书中章节之间的偏序关系构建结点之间的邻接关系构成有向图,即知识图;

4)学习路径选择:使用动态规划算法遍历步骤3)得到的知识图,得到所有的学习路径,引入信息度和流畅度计算公式,信息度衡量路径中是否包含重要的结点和重要的结点对,知识单元对{oi,oi+1}的信息度w(oi,oi+1)计算公式如下:

其中,freq(oi)指知识单元oi中包含的目录数,dif(b,i)指知识单元oi和oi+1中同属于书b中的两个目录之间的距离,如果两个目录和在同一本书b中,且它们又分别属于知识单元oi和oi+1,那么表示目录在书b中的相对位置,否则,dif(b,i)=∞;Bq表示用户检索主题q相关的图书集合;

路径的信息度I(pi)计算公式如下:

其中,|pi|为路径pi的长度,s为路径开始,e为路径结束;

流畅度衡量学习路径中知识单元之间顺序的质量,对于路径使用语言模型来计算其流畅度F(pi),计算公式如下:

其中,p(oi|oi-2oi-1)指给定oi-2oi-1的情况下出现oi的概率,c(oi-2oi-1oi)指知识单元oi-2,oi-1,oi同时出现的次数;

路径pi的打分s(pi)=I(pi)·F(pi),用整数线性规划优化框架选择最好的TOP K条学习路径,求解器的目标函数如下:

其中,|Pq|表示用户检索主题q相关的路径集合Pq的数量,di是一个二进制变量,取值为0或1,取决于路径pi是否被选择;

约束条件如下:

a)确保只有不超过K条路径被选择:

b)如果两条路径的相似度sim(pi,pj)大于等于阈值那么只有一条可以被选择,即:

其中,sim(pi,pj)使用jaccard相似度公式计算;

最终,从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径;

5)知识脉络可视化:将步骤4)选择出的学习路径构成的知识脉络进行可视化展示。

2.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法,其特征在于,所述的步骤1)中,冗余信息指章节号,使用正则表达式对其进行清洗。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710945019.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top