[发明专利]网页标注方法、装置、电子设备及介质在审
申请号: | 202010475519.0 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111639284A | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 周威;王大伟 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F21/60;G06K9/32;G06K9/62;H04L29/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华;孙芬 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 标注 方法 装置 电子设备 介质 | ||
本发明涉及大数据,提供一种网页标注方法,该方法能够当接收到标注请求时,根据所述标注请求确定待标注网页,监测所述待标注网页上的触发事件,得到目标区域,提取所述目标区域中的信息,并确定所述信息所属的类型,从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据,根据所述多个预设标签及所述数据,构建目标模型,将所述信息输入至所述目标模型中,生成标注信息,提高标注信息的生成效率,根据所述目标区域及所述标注信息建立标识并保存所述标识,不仅实现了网页的快速标注,还避免了不同用户对同一区域进行标注时产生的标注信息覆盖。本发明还涉及区块链技术,所述标注信息存储于区块链中。
技术领域
本发明涉及大数据的数据处理技术领域,尤其涉及一种网页标注方法、装置、电子设备及介质。
背景技术
随着大数据及互联网的发展,大量公开数据存储在互联网中,使得互联网成为用户了解数据信息的重要途径。为了帮助用户快速理解互联网上的信息,在很多场景下,都会使用到网页标注。
在现有的技术方案中,首先选中网页上的文字区域,专家进一步对文字区域中对应的文字进行阅读分析,进而得到标注信息,并以标注信息对该文字区域进行标注,然而,这种标注方法只能针对网页上的文字信息,而无法对网页上的图片及按键等进行标注,另外,由于在选中网页上的文字区域时会有较长的时延,以及人为对文字区域内的文字进行分析需要花费较长的时间,因此,这种标注方式也会降低标注效率。
因此,如何构建一种新的网页标注方法,以实现对多种类型的信息进行快速标注,以及实现对多种类型的信息进行标注,成了有待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种网页标注方法、装置、电子设备及介质,不仅能够实现网页的快速标注,还能避免不同用户对同一区域进行标注时产生的标注信息覆盖,同时,还能够解决只对文字类型进行标注的问题。
一种网页标注方法,所述方法包括:
当接收到标注请求时,根据所述标注请求确定待标注网页;
监测所述待标注网页上的触发事件,得到目标区域;
提取所述目标区域中的信息,并确定所述信息所属的类型;
从配置标签库中获取与所述类型对应的多个预设标签,并获取与所述多个预设标签对应的数据;
根据所述多个预设标签及所述数据,构建目标模型;
将所述信息输入至所述目标模型中,生成标注信息;
根据所述目标区域及所述标注信息建立标识,并保存所述标识。
根据本发明优选实施例,所述根据所述标注请求确定待标注网页包括:
从预设库中获取目标标签,所述目标标签是指页面地址对应的标签;
从所述标注请求中提取与所述目标标签对应的信息,作为页面地址;
根据所述页面地址定位所述待标注网页。
根据本发明优选实施例,所述监测所述待标注网页上的触发事件,得到目标区域包括:
当监测到所述待标注网页上有悬停事件产生时,向所述待标注网页发出超文本传输协议请求,得到所述待标注网页的应答报文;
采用UTF-8技术解码所述应答报文,得到所述待标注网页的源代码;
根据所述源代码生成所述待标注网页对应的文档对象模型;
从所述文档对象模型中确定与所述悬停事件对应的DIV标签,并将所述DIV标签对应的区域作为待标注区域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010475519.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面测试方法、装置、设备及存储介质
- 下一篇:一种气密性优良的回转窑