[发明专利]基于海量数字图书的知识脉络自动构建方法有效

申请号：	201710945019.7	申请日：	2017-10-12
公开（公告）号：	CN107908650B	公开（公告）日：	2019-11-05
发明（设计）人：	鲁伟明;马朋坤;魏宝刚;庄越挺	申请（专利权）人：	浙江大学
主分类号：	G06F16/21	分类号：	G06F16/21;G06F16/22;G06N5/02;G06N20/00
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	刘静;邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于海量数字图书知识脉络自动构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于海量数字图书的知识脉络自动构建方法，其特征在于，包括以下步骤：

1)图书预处理：将数字图书的元数据信息存储到Lucene索引文件中；用XML解析器将目录的结构解析出来，并清洗目录标题中的冗余信息；

2)知识单元构建：对于用户检索主题q，从步骤1)中构建的Lucene索引中查询出相关图书集合，将相关图书的所有一级目录标题进行分词处理，通过word2vec方法得到词语的向量表示，对目录标题中的主题词和描述词分别赋予不同的权重，最终用加权的方式计算目录标题之间的相似度；通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合；

3)知识图构建：用步骤2)中构建的知识单元作为结点，用图书中章节之间的偏序关系构建结点之间的邻接关系构成有向图，即知识图；

4)学习路径选择：使用动态规划算法遍历步骤3)得到的知识图，得到所有的学习路径，引入信息度和流畅度计算公式，信息度衡量路径中是否包含重要的结点和重要的结点对，知识单元对{o_i,o_i+1}的信息度w(o_i,o_i+1)计算公式如下：

其中，freq(o_i)指知识单元o_i中包含的目录数，dif(b,i)指知识单元o_i和o_i+1中同属于书b中的两个目录之间的距离，如果两个目录和在同一本书b中，且它们又分别属于知识单元o_i和o_i+1，那么表示目录在书b中的相对位置，否则，dif(b,i)＝∞；B_q表示用户检索主题q相关的图书集合；

路径的信息度I(p_i)计算公式如下：

其中，|p_i|为路径p_i的长度，s为路径开始，e为路径结束；

流畅度衡量学习路径中知识单元之间顺序的质量，对于路径使用语言模型来计算其流畅度F(p_i)，计算公式如下：

其中，p(o_i|o_i-2o_i-1)指给定o_i-2o_i-1的情况下出现o_i的概率，c(o_i-2o_i-1o_i)指知识单元o_i-2，o_i-1，o_i同时出现的次数；