[发明专利]基于近邻传播模型从图书目录中学习层次结构的方法有效
| 申请号: | 201510050439.X | 申请日: | 2015-01-30 |
| 公开(公告)号: | CN104699666B | 公开(公告)日: | 2017-09-01 |
| 发明(设计)人: | 鲁伟明;李戈;吴江琴;庄越挺 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 |
| 地址: | 310027 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 近邻 传播 模型 图书目录 学习 层次 结构 方法 | ||
1.一种基于近邻传播模型从图书目录中学习层次结构的方法,其特征在于包括以下步骤:
1)目录结构抽取与数据预处理:选择一本书,将其目录页进行光学字符识别实现数字化,并在数字化的目录结构上,去除目录前缀,最后将目录进行拆分为上下级的二元项;
2)目录相似度工具构建:首先用分词工具对下载的维基百科的正文进行分词,然后在分词的维基百科上建立倒排索引,最后对二元项中不同类型的节点计算目录之间的总相似度,目录之间的总相似度由结构相似度structSim和局部相似度localSim两部分构成;
3)层次结构生成方法:在得到了目录项之间的总相似度后,将结构化信息约束加入到层次结构生成算法中,通过多次迭代来求解最后的层次结构;
所述的局部相似度计算过程为:
在Wikipedia上构建了倒排索引,输入的文本将被作为概念的加权向量,向量中的内容表示用Wiki概念来表示文本的相关性,每个Wiki概念都会表示成一篇Wikipedia的文档,向量的每一项用TFIDF来度量,表示了Wiki概念与词之间的关联度,对于一个给定的短文本,首先对其进行分词后得到长度为m的向量T={w1,…,wm},对于向量T中的每个元素wi都计算该元素在Wikipedia的TFIDF,这样wi={di1,…,din},n为Wikipedia中总的概念数,那么文本就转化为在Wiki概念上的分布R={d1,…,dn}:
其中ni表示词ti在短文本中出现的次数,|D|表示wiki的文档综述,Dj表示Wikipedia的第j篇文档,mik表示词ti在Wikipedia的第k篇文档出现的次数,这样就得到了用归一化的Wiki概念表示的相似度文本,接着,用余弦相似度来度量向量之间的局部相似度;
其中向量A=(x1,x2,x3,…,xn),B=(y1,y2,y3,…,yn);
所述的结构相似度计算过程为:结构相似度由根节点与根节点之间的结构相似度,叶节点与叶节点之间的结构相似度,叶节点与根节点之间的结构相似度三部分构成,其中:
1)根节点与根节点之间的结构相似度:
其中如果δ(,)的两个参数完全相同,则δ(,)=1,否则,δ(,)=0,返回节点A的一个叶节点的名字,Z是一个常量,Z=min(|lX|,|lY|),|lX|表示节点x的子节点的数量;
2)叶节点与叶节点之间的结构相似度:
其中如果δ(,)的两个参数完全相同,则δ(,)=1,否则,δ(,)=0,返回节点A的一个叶节点的名字,Z是一个常量,Z=min(|lX|,|lY|),|lX|表示节点x的子节点的数量;
3)叶节点与根节点之间的结构相似度:
structSimLL(lA,rB)=localSim(rA,rB);
所述的总相似度的计算为:
nodeSim(i,j)=(1-α)×localSim(i,j)+α×structSim(i,j)
其中α是调整局部相似度localSim和结构相似度structSim贡献度的参数,取值范围为[0,1]。
2.根据权利要求1中所述的基于近邻传播模型从图书目录中学习层次结构的方法,其特征在于所述的去除目录前缀,最后将目录进行拆分为上下级的二元项,具体为:
2.1对目录项进行预处理,使用正则表达式删除目录的前缀,正则表达式如下所示:
(/s*/第.*(/章|/节|/篇|/课|/部/分)/s*)|(/s*/(?[/一/二/三/四/五/六/七/八/九/十]/s*(/、|/))/s*)
2.2对预处理后的目录,进行分解,分解为碎片结构,每个碎片结构包含一个根节点与若干根节点的子节点,根节点表示上级目录,根节点的子节点表示上级目录对应的下级目录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510050439.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:汉语语音现场控制机器人的方法
- 下一篇:一种模板独立的排版系统及方法





