[发明专利]网页相似度确定方法、网页聚类方法、装置及电子设备在审
| 申请号: | 202011011040.8 | 申请日: | 2020-09-23 |
| 公开(公告)号: | CN112182319A | 公开(公告)日: | 2021-01-05 |
| 发明(设计)人: | 王一洲;洪毅清;吕文栋;蔡淑莲;钟文杰 | 申请(专利权)人: | 中国建设银行股份有限公司 |
| 主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/955;G06F40/143 |
| 代理公司: | 北京市兰台律师事务所 11354 | 代理人: | 张峰 |
| 地址: | 100033 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 相似 确定 方法 装置 电子设备 | ||
本申请提供了一种基于路径相似度的网页相似度确定方法、网页聚类方法、装置及电子设备,应用于计算机技术领域,其中该方法包括:基于网页的叶子节点路径的的相似度来确定网页的相似度,与树编辑距离确定网页相似度相比,相似度计算过程简单,时间复杂度低,同时还提升了网页相似度计算的精准度;此外通过基于路径相似度的网页相似度确定方法进行网页聚类,能够降低网页聚类的时间复杂度,从而能够快速处理大量的网页。
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种基于路径相似度的网页相似度确定方法、网页聚类方法、装置及电子设备。
背景技术
随着数据挖掘技术的发展使得数据的需求量和重要性不断上升,而Web网页是数据主要载体,大量的数据通过Web网页来呈现,这使得Web数据的自动化抽取成为了重要技术。HTML页面是存储在后台数据库中的数据和HTML内容模板的结合体,在网站内部的网页大多都是由一套相同的内容模板生成的,因此通过网页聚类,对同一个模板生成的网页进行数据抽取将大大提高抽取的准确率。
网页相似度计算是网页聚类的核心算法,在一定程度上网页的相似度计算决定了网页聚类的精确度和时间复杂度。传统的网页相似度计算是基于树编辑距离,树编辑距离是在文本编辑距离基础上,引入节点间的父子关系,来计算两棵树之间的编辑距离,然而,树编辑距离的相似度计算方法存在时间复杂度较高、不适合处理海量网页的问题。
发明内容
本申请提供了一种网页相似度确定方法、网页聚类方法、装置及电子设备,用于提高人脸识别的速度与精度。本申请采用的技术方案如下:
第一方面,提供了一种基于路径相似度的网页相似度确定方法,包括:
确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集;
基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度。
可选地,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集,包括:
确定第一网页对应的DOM树、第二网页对应的DOM树;
基于确定的第一网页的DOM树、第二网页对应的DOM树,确定第一网页的第一叶子节点路径集、第二网页的第二叶子节点路径集。
可选地,基于第一叶子节点路径集中叶子节点路径与第二叶子节点路径集中叶子节点路径之间的相似度确定第一网页与第二网页的相似度,包括:
通过如下公式确定第一网页与第二网页的相似度:
其中,p1h表示第一网页对应的DOM树T1中第k个叶子节点对应的叶子节点路径,p2h表示第二网页对应的DOM树T2中第k个叶子节点对应的叶子节点路径,P1表示第一叶子节点路径集合,P2表示第二叶子节点路径集合,n表示第一网页DOM树T1的叶子节点数量,m表示第二网页对应的DOM树T2的叶子节点数量;
其中,sim(p1h,P2)表示叶子节点路径p1h与第二叶子节点路径集中各叶子节点路径相似度的最大值,sim(p2h,P1)表示叶子节点路径p2h与第一叶子节点路径集P1中各叶子节点路径相似度的最大值。
可选地,两个叶子节点路径的相似度计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011011040.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可靠性高的络筒机
- 下一篇:测试案例分配方法、装置、电子设备及介质





