[发明专利]一种数据处理方法及系统在审
申请号: | 202110954551.1 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113590984A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 黄金;林锋;李永全;周骄;黄勇;常俊;梁思杰 | 申请(专利权)人: | 北京中网易企秀科技有限公司;成都中网易企秀科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/951 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 钱娜 |
地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 系统 | ||
本申请公开了一种数据处理方法及系统,获取目标地址,并渲染出目标地址对应的页面,从页面中获取页面标注区块,页面标注区块由用户在页面中的区域进行送审标记得到,基于页面标注区块得到源码区块标签,源码区块标签用于表征对相应元素指定送审的源码标识,对源码区块标签进行解析,得到相应元素对应的元素信息,基于元素信息,得到待审核内容,并对待审核内容进行审核操作。通过上述方案,从渲染出目标地址对应的页面中获取页面标注区块,页面标注区块由用户在页面中的区域进行送审标记得到,在解析源码区块标签和对待审核内容进行送审的过程中,用户可以指定元素信息进行送审或者不送审,提高了送审方式的灵活性。
技术领域
本申请涉及内容审核技术领域,更具体地说,涉及一种数据处理方法及系统。
背景技术
内容审核(Content Moderation)是基于图像、文本、音视频等检测技术,对接收到的待审数据(图片、文本、音频、视频、链接等)进行检测,并将检测后的待审数据进行内容审核,以满足上传要求,帮助客户降低业务违规风险。
目前,内容审核接收待审数据有两种方式:一是被动接收;二是主动爬取。主动爬取的方式是通过解析获取图片、文本、音频、视频、链接等元素的方式进行审核,但是该方式存在一些缺陷,比如不能人为选择一些元素进行送审,或者人为选择一些元素不进行送审,使得用户不能对送审元素进行指定,从而降低了送审方式的灵活性。
发明内容
有鉴于此,本申请公开了一种数据处理方法及系统,在解析源码区块标签和对待审核内容进行送审的过程中,用户可以指定元素信息进行送审或者不送审,提高了送审方式的灵活性。
为了实现上述目的,其公开的技术方案如下:
本申请第一方面公开了一种数据处理方法,所述方法包括:
获取目标地址,并渲染出所述目标地址对应的页面;所述目标地址由用户输入进行送审的URL地址中选取得到;
从所述页面中获取页面标注区块;所述页面标注区块由所述用户在所述页面中的区域进行送审标记得到;
基于所述页面标注区块,得到源码区块标签;所述源码区块标签用于表征对相应元素指定送审的源码标识;
对所述源码区块标签进行解析,得到所述相应元素对应的元素信息;
基于所述元素信息得到待审核内容,并对所述待审核内容进行审核操作。
优选的,所述获取目标地址,并渲染出所述目标地址对应的页面,包括:
获取原始URL地址;所述原始URL地址用于指示用户输入进行送审的URL地址;
通过预设可变动参数,对所述原始URL地址进行选取得到目标地址,并渲染出所述目标地址对应的页面;所述预设可变动参数用于定位所述目标地址对应的网络源码位置。
优选的,所述基于所述页面标注区块,得到源码区块标签,包括:
从所述页面标注区块中获取区域源码;
向所述区域源码添加用于指示送审的标签,得到源码区块标签。
优选的,所述对所述源码区块标签进行解析,得到所述相应元素对应的元素信息,包括:
将所述目标地址与预设URL地址进行预定匹配处理;
若所述目标地址与所述预设URL地址匹配,则获取所述源码区块标签的URL内容源码;
从所述URL内容源码中获取区块起始位置及区块终止位置之间对应的目标URL内容源码;
解析所述目标URL内容源码,得到所述相应元素对应的元素信息。
优选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中网易企秀科技有限公司;成都中网易企秀科技有限公司,未经北京中网易企秀科技有限公司;成都中网易企秀科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954551.1/2.html,转载请声明来源钻瓜专利网。