[发明专利]基于近邻传播模型从图书目录中学习层次结构的方法有效
| 申请号: | 201510050439.X | 申请日: | 2015-01-30 |
| 公开(公告)号: | CN104699666B | 公开(公告)日: | 2017-09-01 |
| 发明(设计)人: | 鲁伟明;李戈;吴江琴;庄越挺 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于近邻传播模型从图书目录中学习层次结构的方法。学习结构化数据已经成为了很多领域中非常重要的问题,例如文档及web数据挖掘,生物信息学,图书分析等。学习这种复杂结构的一种方法是将其分解为小的、不完全的而且带有噪声的结构化碎片。本发明从图书的目录出发,首先对图书目录进行预处理,接着通过增加结构和语义相似度来对学习得到的层次结构进行约束,并利用结构化信息拓展了近邻传播模型,使其能够将一组原有的碎片信息整合成一致的,更大的层次主题。本发明利用图书目录这种高可靠性,低噪声的数据构建出来的层次结构比现有的方法有着更高的准确度和更低的冲突性。 | ||
| 搜索关键词: | 基于 近邻 传播 模型 图书目录 学习 层次 结构 方法 | ||
【主权项】:
一种基于近邻传播模型从图书目录中学习层次结构的方法,其特征在于包括以下步骤:1)目录结构抽取与数据预处理:选择一本书,将其目录页进行光学字符识别实现数字化,并在数字化的目录结构上,去除目录前缀,最后将目录进行拆分为上下级的二元项;2)目录相似度工具构建:首先用分词工具对下载的维基百科的正文进行分词,然后在分词的维基百科上建立倒排索引,最后对二元项中不同类型的节点计算目录之间的总相似度,目录之间的总相似度由结构相似度structSim和局部相似度localSim两部分构成;3)层次结构生成方法:在得到了目录项之间的总相似度后,将结构化信息约束加入到层次结构生成算法中,通过多次迭代来求解最后的层次结构;所述的局部相似度计算过程为:在Wikipedia上构建了倒排索引,输入的文本将被作为概念的加权向量,向量中的内容表示用Wiki概念来表示文本的相关性,每个Wiki概念都会表示成一篇Wikipedia的文档,向量的每一项用TFIDF来度量,表示了Wiki概念与词之间的关联度,对于一个给定的短文本,首先对其进行分词后得到长度为m的向量T={w1,…,wm},对于向量T中的每个元素wi都计算该元素在Wikipedia的TFIDF,这样wi={di1,…,din},n为Wikipedia中总的概念数,那么文本就转化为在Wiki概念上的分布R={d1,…,dn}:di=ΣkniΣjnj×log|D||{j:ti∈Dj}|×mikΣjmjk]]>其中ni表示词ti在短文本中出现的次数,|D|表示wiki的文档综述,Dj表示Wikipedia的第j篇文档,mik表示词ti在Wikipedia的第k篇文档出现的次数,这样就得到了用归一化的Wiki概念表示的相似度文本,接着,用余弦相似度来度量向量之间的局部相似度;其中向量A=(x1,x2,x3,…,xn),B=(y1,y2,y3,…,yn);所述的结构相似度计算过程为:结构相似度由根节点与根节点之间的结构相似度,叶节点与叶节点之间的结构相似度,叶节点与根节点之间的结构相似度三部分构成,其中:1)根节点与根节点之间的结构相似度:structSimRR(rA,rB)=1ZΣi,jδ(name(liA),name(ljB))]]>其中如果δ(,)的两个参数完全相同,则δ(,)=1,否则,δ(,)=0,返回节点A的一个叶节点的名字,Z是一个常量,Z=min(|lX|,|lY|),|lX|表示节点x的子节点的数量;2)叶节点与叶节点之间的结构相似度:structSimLL(lA,lB)=1Z-1((Σi,jδ(name(liA),name(ljB)))-1)]]>其中如果δ(,)的两个参数完全相同,则δ(,)=1,否则,δ(,)=0,返回节点A的一个叶节点的名字,Z是一个常量,Z=min(|lX|,|lY|),|lX|表示节点x的子节点的数量;3)叶节点与根节点之间的结构相似度:structSimLL(lA,rB)=localSim(rA,rB);所述的总相似度的计算为:nodeSim(i,j)=(1‑α)×localSim(i,j)+α×structSim(i,j)其中α是调整局部相似度localSim和结构相似度structSim贡献度的参数,取值范围为[0,1]。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510050439.X/,转载请声明来源钻瓜专利网。
- 上一篇:汉语语音现场控制机器人的方法
- 下一篇:一种模板独立的排版系统及方法





