[发明专利]基于近邻传播模型从图书目录中学习层次结构的方法有效
| 申请号: | 201510050439.X | 申请日: | 2015-01-30 | 
| 公开(公告)号: | CN104699666B | 公开(公告)日: | 2017-09-01 | 
| 发明(设计)人: | 鲁伟明;李戈;吴江琴;庄越挺 | 申请(专利权)人: | 浙江大学 | 
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 | 
| 代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 | 
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 近邻 传播 模型 图书目录 学习 层次 结构 方法 | ||
技术领域
本发明涉及层次结构的生成方法,尤其涉及一种基于图书目录的层次结构生成方法。
背景技术
目录是一本书的导航也是人们在学习知识的大纲,而不同的书描述知识的侧重点会有所不同,如何得到一个多层次的大众目录就成为了该小节的主要研究内容。为了将两个相似的目录项进行合并,需要一个衡量相似度的方法。可以用最简单的方法,即如果两个目录完全相同,那么对它们进行合并。这样做就会产生很多问题,比如“冠心病的定义”和“什么是冠心病”讲的是非常类似的东西,可以进行目录合并,但是由于他们不是完全相同,就不会进行合并。类似这样的问题还有很多:
首先是同义词,比如SVM和支持向量机,他们描述的是一个事物,希望他们能够进行合并。可以去爬去同义词词典,再通过同义词词典进行过滤。但是如果问题变得稍稍复杂一点,例如“SVM模型”和“支持向量机”,这个办法就解决不了。
其次还有一个词有两个或两个以上的父节点。例如“二叉树”的父节点就有“数据结构”以及“树”等。这种同样的事物,但是因为描述的力度不同,就可能让他们处在不同的层级中。
发明内容
本发明的目的是为了克服原有发明的不足,给出了一种基于图书目录的层次结构生成方法。
本发明解决其技术问题采用的技术方案如下:
一种基于近邻传播模型从图书目录中学习层次结构的方法包括以下步骤:
1)目录结构抽取与数据预处理:选择一本书,将其目录页进行光学字符识别实现数字化,并在数字化的目录结构上,去除目录前缀,最后将目录进行拆分为上下级的二元项;
2)目录相似度工具构建:首先用分词工具对下载的维基百科的正文进行分词,然后在分词的维基百科上建立倒排索引,最后对二元项中不同类型的节点计算目录之间的总相似度,目录之间的总相似度由结构相似度structSim和局部相似度localSim两部分构成;
3)层次结构生成方法:在得到了目录项之间的总相似度后,将结构化信息约束加入到层次结构生成算法中,通过多次迭代来求解最后的层次结构。
所述的去除目录无用的前缀,最后将目录进行拆分为上下级的二元项,具体为:
2.1对目录项进行预处理,使用正则表达式删除目录的前缀,正则表达式如下所示:
(/s*/第.*(/章|/节|/篇|/课|/部/分)/s*)|(/s*/(?[/一/二/三/四/五/六/七/八/九/十]/s*(/、|/))/s*)
2.2对预处理后的目录,进行分解,分解为碎片结构,每个碎片结构包含一个根节点与若干根节点的子节点,根节点表示上级目录,根节点的子节点表示上级目录对应的下级目录。
所述的局部相似度计算过程为:
在Wikipedia上构建了倒排索引,输入的文本将被作为概念的加权向量,向量中的内容表示用Wiki概念来表示文本的相关性,每个Wiki概念都会表示成一篇Wikipedia的文档,向量的每一项用TFIDF来度量,表示了Wiki概念与词之间的关联度,对于一个给定的短文本,首先对其进行分词后得到长度为m的向量T={w1,…,wm},对于向量T中的每个元素wi都计算该元素在Wikipedia的TFIDF,这样wi={di1,…,din},n为Wikipedia中总的概念数,那么文本就转化为在Wiki概念上的分布R={d1,…,dn}:
其中ni表示词ti在短文本中出现的次数,|D|表示wiki的文档综述,dj表示Wikipedia的第j篇文档,mik表示词ti在Wikipedia的第k篇文档出现的次数,这样就得到了用归一化的Wiki概念表示的相似度文本,接着,用余弦相似度来度量向量之间的局部相似度;
其中向量A=(x1,x2,x3,…,xn),B=(y1,y2,y3,…,yn)。
所述的结构相似度计算过程为:结构相似度由根节点与根节点之间的结构相似度,叶节点与叶节点之间的结构相似度,叶节点与根节点之间的结构相似度三部分构成,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510050439.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:汉语语音现场控制机器人的方法
 - 下一篇:一种模板独立的排版系统及方法
 





