[发明专利]一种面向青少年群体的文字和图像数据的过滤方法及系统有效
| 申请号: | 201910433221.0 | 申请日: | 2019-05-23 |
| 公开(公告)号: | CN110175288B | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 王礼鑫;赵燕;陈思明 | 申请(专利权)人: | 中国搜索信息科技股份有限公司 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958;G06F16/35;G06F16/338;G06F16/335;G06F16/535;G06F16/55 |
| 代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国栋 |
| 地址: | 100011 北京市大兴*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 青少年 群体 文字 图像 数据 过滤 方法 系统 | ||
本发明公开了一种面向青少年群体的文字和图像数据的过滤方法及系统,所述过滤方法及过滤系统通过对互联网页面数据进行数据预处理,并对数据预处理获取的结果进行是否属于青少年数据的判别、是否属于低质量数据的判别以及是否适合青少年观看图片的判别等操作,在常规的数据过滤基础上,排除了庸俗的网络文字以及图片。优点是:引入HTML视觉分块技术,充分挖掘互联网页面中的不良信息;通过大数据训练,挖掘含有恶意跳转的JS代码,具有极强的数据净化能力;使青少年不感兴趣的数据被滤掉,向青少年输送特定内容的信息,使青少年在有限的时间有效的汲取互联网上的有用信息;从青少年的角度出发,使得互联网页面上的数据更加积极健康向上。
技术领域
本发明涉及文本过滤、图像分类领域,尤其涉及一种面向青少年群体的文字和图像数据的过滤方法及系统。
背景技术
近些年来,随着光纤通信、无线通信等基础设施的完善,越来越多的用户可以通过电脑、平板、手机等终端连入互联网。这种方便性使得初次上网人群的呈现低龄化的趋势。但是,互联网具有开放性,它不会选择性的向特定人群传递特定信息。此外,互联网也具有多样性,除了有价值的信息之外,还充斥了暴力、黄色、赌博等不良有害信息。
对于黄色、赌博、暴力等有害信息的过滤传统手段主要有:1.人工审查,即在发稿前由编辑部门进行审核,保证发布的每条稿件无差错;2.关键字匹配,即设定关键词黑名单,命中黑名单词汇的信息被过滤掉;3.从白名单站点中进行数据筛选,即从大站、政府站点等优质站点中进行数据筛选。第一种方法在面对每天的海量信息时效率低下,且实时性较差;第二种方法的缺陷在于内容的发布者会通过变换文字、加入特殊符号等各种各样的形式产生垃圾信息,黑名单词表无法做到完全覆盖;第三种方法则因为只限定特定的站点,从而造成大量优质的信息可能会被遗漏。
此外,随着互联网技术的发展,越来越多的互联网用户不仅是内容的接收者,更可能是内容的发布者;很多内容输出人员甚至是商业公司会通过庸俗的文字或者低俗图片来达到吸引阅读量或者追求自身利益的目的,这些信息如果不加区分的全部推送给青少年,不仅会严重挤压青少年宝贵的时间,更可能会向青少年灌输错误的价值观、人生观。
发明内容
本发明的目的在于提供一种面向青少年群体的文字及图像数据过滤方法及系统,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种面向青少年群体的文字和图像数据的过滤方法,所述过滤方法包括如下步骤,
S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;
S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;
S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;
S4、寻找并下载分区文本中的有效图片链接,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则执行步骤S5,若否,则过滤该图片。
优选的,步骤S1包括如下内容,
S101、网页建树;按照HTMLDTD4.0规范分解互联网页面上所有的标签,一个标签作为一个树节点,按照标签之间的包含依赖关系、采用递归下降的方法构造语法树,并将互联网页面上的文本分为不同的区域,分别为META区域、正文区域、链接区域;
S102、分区文本提取;对分区后的文本进行标题提取、META信息提取和链接文本提取的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国搜索信息科技股份有限公司,未经中国搜索信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910433221.0/2.html,转载请声明来源钻瓜专利网。





