[发明专利]一种关键内容定位方法有效
申请号: | 201911236209.7 | 申请日: | 2019-12-05 |
公开(公告)号: | CN111079043B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 易超;徐经纬;张舒汇;贺赞贤 | 申请(专利权)人: | 北京数立得科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F11/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100036 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键 内容 定位 方法 | ||
本发明提供了一种关键内容定位方法,包括Web页面动态演化监测阶段与关键内容定位阶段,在Web页面动态演化监测阶段,定期获取待监测的Web页面;根据预设的监测配置信息中的关键内容,在所述Web页面的文档对象模型DOM树中定位到相应节点,并根据相应节点,确定Web页面是否变化;在关键内容定位阶段,将监测阶段获取到的Web页面内容进行存储,作为旧版本页面的历史数据用于后续定位,通过对旧版本页面关键内容文本、结构等特征的提取与融合,在新版本页面中依次定位到内容块及关键内容,最终可视化给出关键内容在新旧版本页面中的映射关系,以及其元素定位方式的变化,辅助开发者对现有的系统整合方案进行修复。
技术领域
本发明涉及Web应用技术领域,特别是涉及一种关键内容定位方法。
背景技术
Web应用常常会由于升级、修补漏洞、用户体验优化等导致页面结构发生动态变化。这种变化会给关联系统之间的对接产生影响。例如,通过嵌入页面而实现的两个系统直接的对接,一个系统变化会导致另一个系统不可用;又例如,通过数据采集而完成的舆情监控,页面结构变化会导致无法继续获取到正确的舆情内容。
Web应用之间的对接是当前日益增多的需求,从Web应用的表现层入手进行这种整合由于其低成本、非侵入等特性成为目前更为有效的一种方式。然而,Web应用常常会进行动态演化,导致页面结构发生变化,这些变化可能会使得已有的整合方案失效。同时,Web应用变化的不可预知性,使得对变化没有有效的预警方式,无法及时地检测到变化。因此,如何及时主动地发现Web应用页面的变化,并在变化后能够重新定位出关键内容,辅助开发人员进行修复,以保证系统继续正确的运行,成为Web应用整合时需要考虑的问题。
上述问题很自然的可以分成两步进行考虑:第一步是变化监测,即定期地对需要检查的Web页面进行监控,以确定页面结构是否发生了改变;第二步为内容定位,即在检测到变化后,根据关键内容的特征,在新版本页面中定位出需要的关键内容。然而,在以上两个步骤的处理中存在着如下的挑战:1)Web页面的变化频繁多样,且部分Web页面需要经过一系列前置操作,如登录、点击等,才能够访问,这给对Web页面变化的检测带来了困难;2)关键内容的特征难以直接从Web页面的HTML代码中获取,需要进行一定的推理计算;3)关键内容一般为Web页面中的文本数据,它们通常对应DOM树的叶子节点,能够提取的特征相对较少,这给对关键内容的定位带来了挑战。
发明内容
本发明提供一种关键内容定位方法,以克服上述技术问题。
为了解决上述问题,本发明公开了一种关键内容定位方法,包括:
定期获取待监测的Web页面;
根据预设的监测配置信息中的关键内容,在所述Web页面的文档对象模型DOM树中定位到相应节点;
当无法定位到相应节点时,则确定为所述Web页面变化;
当定位到相应节点时,从所述Web页面中获得包含所述监测配置信息中的关键内容的当前内容块,并将所述当前内容块的标题与在初始化监测任务中从所述Web页面获得的初始内容块的标题进行对比,确定所述Web页面是否发生变化;
将发生变化后的Web页面作为历史版本页面数据存储;
获取所述历史版本页面数据的全部历史内容块,对每个历史内容块提取结构特征和文本特征;
对全部历史内容块的结构特征和文本特征进行综合,依次定位历史目标内容块及所述历史目标内容块内关键内容,并确定所述历史目标内容块的第一特征;
针对最新监测到的已发生变化的新版本Web页面,获取所述新版本Web页面DOM树的全部子树,将每一个子树作为一个待匹配的内容块,分别对每个待匹配的内容块进行特征的提取;
遍历所有待匹配的内容块,将每个待匹配的内容块的特征与所述历史目标内容块的第一特征进行相似性计算,定位当前目标内容块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数立得科技有限公司,未经北京数立得科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911236209.7/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法