[发明专利]基于海量数字图书的知识脉络自动构建方法有效
申请号: | 201710945019.7 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107908650B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 鲁伟明;马朋坤;魏宝刚;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/22;G06N5/02;G06N20/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 海量 数字 图书 知识 脉络 自动 构建 方法 | ||
本发明公开了一种基于海量数字图书的知识脉络自动构建方法;将数字图书的元数据信息存储到Lucene索引文件中,如果用户检索主题q,则可获得q相关的图书集合;通过加权的word2vec方法计算目录标题之间的相似度,通过自底向上的凝聚型层次聚类算法对q相关教科书的一级目录进行聚类得到知识单元集合;根据图书中章节之间的偏序关系构建知识单元之间的连接关系,最终构建完整的知识图;从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径,将学习路径构成的知识脉络仿照地铁图的形式进行可视化展示。本发明首次提出了一个基于海量数字图书的摘要提取框架,该框架提取出的知识脉络能够综合考虑信息度、流畅度和覆盖度,能够方便用户快速高效地进行知识学习。
技术领域
本发明涉及基于海量数字图书的知识挖掘方法,尤其涉及一种基于海量数字图书的知识脉络自动构建方法。
背景技术
图书是老师和学生之间传递知识的重要媒介。最近十年间,一些项目,例如“谷歌图书”和“百万图书”项目,开始进行大规模的图书数字化工作。这为用户寻找并阅读图书提供了极大的帮助。但是,图书数量的丰富也造成了一定的干扰,当学习一个主题时,我们往往会陷入到成千上万本图书中。因此,把这成千上万本图书综合进一个简洁但又全面的图片中将会极大地方便知识的学习。
目前有一些研究者开始研究如何进行新闻、科学文献、用户生成内容和专利领域的摘要抽取和可视化来避免信息过载。但是,还没有相关工作对有相同主题的书籍进行合成,形成全面的知识脉络图来帮助用户有效地学习。而且,上述领域的摘要提取技术也不适用于大量图书的合成摘要处理,原因有以下几点:首先,文本相似度计算可以方便进行文章的链接,从而生成具有故事情节的文章摘要。但是,图书往往具有非常丰富且冗长的文本信息,依靠文本相似度来进行图书之间的相似度计算是不可取的。其次,图书缺少时态信息和引用信息,这导致用来对新闻、科学文献和专利的摘要技术在图书领域不适用。
因此,我们考虑仿照地铁图的样式来构造具有相同主题的书籍的知识脉络图,这个知识脉络图包含了该主题相关的几条具有丰富知识点、流畅度高、覆盖度高的学习路径,从而帮助用户高效地进行知识学习。
发明内容
本发明为了解决用户学习某个主题的知识时陷入大量相似图书而无法高效学习的问题,提出了一种基于海量数字图书的知识脉络自动构建方法,能够极大地方便用户进行高效的知识学习。
本发明解决其技术问题采用的技术方案如下:一种基于海量数字图书的知识脉络自动构建方法,包括以下步骤:
1)图书预处理:将数字图书的元数据信息(包括标题、作者、出版社、目录等)存储到Lucene索引文件中;用XML解析器将目录(目录按照XML结构存储)的结构解析出来,并清洗目录标题中的冗余信息;
2)知识单元构建:对于用户检索主题q,从步骤1)中构建的Lucene索引中查询出相关图书集合,将相关图书的所有一级目录标题进行分词处理,通过word2vec方法得到词语的向量表示,对目录标题中的主题词和描述词分别赋予不同的权重,最终用加权的方式计算目录标题之间的相似度;通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合;
3)知识图构建:用步骤2)中构建的知识单元作为结点,用图书中章节之间的偏序关系构建结点之间的邻接关系构成有向图,即知识图;
4)学习路径选择:使用动态规划算法遍历步骤3)得到的知识图,得到所有的学习路径,引入信息度和流畅度计算公式,信息度衡量路径中是否包含重要的结点和重要的结点对,知识单元对{oi,oi+1}的信息度w(oi,oi+1)计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710945019.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本分类的控制方法
- 下一篇:一种分布式集群的审计方法