[发明专利]一种互联网图片广告过滤系统及其过滤方法有效
申请号: | 201210004669.9 | 申请日: | 2012-01-10 |
公开(公告)号: | CN102419777A | 公开(公告)日: | 2012-04-18 |
发明(设计)人: | 吴华鹏;曾明;刘宇;史金城 | 申请(专利权)人: | 凤凰在线(北京)信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 100029 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 图片 广告 过滤 系统 及其 方法 | ||
技术领域
本发明涉及一种互联网图片广告过滤系统及其过滤方法,尤其涉及一种针对互联网互动产品的特点,对灌水及商业广告等信息进行准确过滤的过滤系统及其过滤方法,属于网络信息安全技术领域。
背景技术
现阶段,互联网上各大论坛、博客等都面临着广告帖的大量灌入,极度影响用户的互动体验。一般,论坛、博客都有提供给版主删除广告、违法信息的操作后台,但是人工不能保证及时的屏蔽广告。本发明正是嵌入在这样的操作后台,使用多种方法提取文本特征。这些方法可以看做弱分类器,根据Boosting思想,我们使用人工神经网络将多种识别方法自适应融合。本发明识别速度快、识别率高,支持无人工操作。
目前,各个网站针对此情况一般都是采用如下的技术措施:
1.将发帖过多或间隔时间过短的帖子交予人工审查。这种方法可以对一部分广告做到过滤,但是面对过多用户同时发布多篇广告帖时,需要审查的帖子数量过多,管理员压力巨大,审查时间也会过长。
2.网友举报发布广告帖的用户:对于广告帖,网友可以进行举报,每人可举报一次,当举报数超过一定数量时,对被举报用户进行禁言措施。此种方法需要活跃用户自发参与,但若数量太大或马甲重复发帖,单凭网友力量很难解决。
3.关键词过滤方式:使用常见广告词汇作为关键词,包含关键词禁止发布。此种方法只能处理低级广告,若出现词变形或绕关键词,则无法识别。
4.使用预先设定的过滤参数,过滤参数不能根据不断变化的广告帖自动变化,即使出现过多误判,也只能人工对参数更新,而不能自我学习,无法适应广告帖发展趋势。
5.只是使用预订参数自动过滤,对人工操作没有给予考虑:当一些经过过滤系统过滤认为并不存在问题的帖子,可能由于其他规则被人工操作删除后,由于不会学习人工操作,下次系统遇到相似的帖子仍然不会过滤。
针对现有技术的种种不足,本发明嵌入到互动产品用户生成内容管理后台,根据内容及用户行为过滤广告帖内容。需要解决如下问题:
1.根据内容特点识别及过滤广告帖等不良内容;
2.结合用户历史及内容历史提高识别准确度;
3.根据图片的发布特征识别广告帖。
发明内容
本发明所要解决的技术问题在于提供一种互联网图片广告过滤系统及其过滤方法,可以对广告帖等不良信息进行自动过滤。
为实现上述的发明目的,本发明采用下述的技术方案:
一种互联网图片广告过滤系统,包括内容输入接口、特征分析模块、以及决策计算模块、数据记录模块、信息库、指令输出接口、人工操作输入接口和机器学习模块;其中,
内容输入接口用于接收来自于互联网互动产品的用户生成内容;
特征分析模块用于分析用户生成内容,提取用户生成内容的多种特征,并根据特征历史情况及人工操作记录计算特征值,生成特征向量;
信息库用于存储用户生成内容的各项特征数据;
决策计算模块用于根据特征分析模块生成的特征向量综合判断是否对用户生成内容进行过滤;
指令输出接口用于将决策计算模块判断的结果整理成显示/屏蔽操作指令,同步给互联网互动产品;
所述内容输入接口包括:
数据输入接口,校验输入的用户生成内容数据的数据格式以及完整性;
解析器,解析输入的用户生成内容数据,获得ID、标题、内容、用户ID、发布时间等信息。
所述特征分析模块包括:发帖间隔分析模块、URL提取器、URL分析模块、图片内容分析模块以及用户分析模块。
发帖间隔分析模块根据用户ID对比该用户上次发帖时间与本次时间,得到发帖时间间隔,并根据发帖时间间隔得到当前用户生成内容可能为广告的发帖间隔特征值;
URL提取器从解析后的数据中识别出所有URL;
URL分析模块对每个URL进行次数统计,并根据出现次数最多的URL次数得到当前用户生成内容可能为广告的URL特征值。
所述图片内容分析模块从解析后的用户生成内容数据的图片中选取一个或多个特定点,计算图片校验值;
对该图片校验值进行分析,得到与当前图片校验值相同的值出现过多少次就代表相同图片发布过多少次,并根据相同图片发布次数得到当前用户生成内容可能为广告的图片特征值。
所述用户分析模块从用户库中查询用户发文记录,根据用户发帖被删除和通过次数进行计算用户特征值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凤凰在线(北京)信息技术有限公司,未经凤凰在线(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210004669.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可整体运输的房屋及其运输车辆
- 下一篇:车载多媒体旋钮及旋钮调节装置