[发明专利]用于识别网页中的广告的方法和系统无效
| 申请号: | 200910177336.4 | 申请日: | 2009-09-30 |
| 公开(公告)号: | CN102033881A | 公开(公告)日: | 2011-04-27 |
| 发明(设计)人: | 包胜华;张小洵;张俐;苏中 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邸万奎 |
| 地址: | 美国纽*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 识别 网页 中的 广告 方法 系统 | ||
技术领域
本发明涉及网页识别技术,尤其涉及识别网页中的广告的技术。
背景技术
随着互联网技术的不断进步,互联网网民的不断增加,电子商务产业取得了蓬勃发展,原来在电视、楼宇等播放的广告也越来越多地流向互联网。对于企业而言,为了取得更好的宣传效果,就不能忽视在互联网上投放广告的重要性,而且互联网广告以其形式多样、制作快捷、易于变换等特性也受到了越来越多的企业的欢迎。对于许多互联网内容提供商尤其是大型门户网站而言,互联网广告收入已经成为其主要的收入来源和盈利模式之一。互联网内容提供商或者网站经常通过统计用户对广告的点击量来向广告主收取广告费。
许多企业对投放在网页上的广告都具有很大的兴趣,并且这些广告信息可以被用于许多广告数据应用中,例如基于互联网在线广告的分布情况估算竞争对手的广告投资等。然而,由于互联网广告的排版布局、格式类型在不同的网站和网页间都具有很大的差异,因此如何精确地从不同的网页中检测出不同的广告仍然是一个亟待解决的难题。即使对于同一网页而言,广告主的改变也会导致广告投放的变化。
目前检测网页广告的方法主要是设定简单的规则来对网页进行分析,从而找出网页中的广告。例如,这样的规则可以是:凡是位于网页左下角的方框均为广告;凡是具有闪烁效果弹出窗口均为广告等。但问题在于:网页上越来越多的广告以链接的形式存在,甚至以非广告性质的文字标题存在。因此,试图依靠简单地规则来全面准确地找出网页中的广告是难以实现的,这样的方法无法发现大量与简单地规则不匹配的网页广告。
发明内容
为此,本发明提供了一种用于识别网页中的广告的方法和系统,以便克服现有技术中的问题。本发明的构思是基于下面的考虑:为了计费的方便,大部分网站的广告都具有相同的链接模式,也就是说广告的URL地址都具有相同或相似的模式,通过找出这些具有相同或相似的URL地址模式的网页节点,就可以更全面准确地找出网页或网站中的广告。
根据本发明的一个方面,提供了一种用于识别网页中的广告的方法,包括:接收种子网页;通过分析所述种子网页的源代码得到所述种子网页的节点特征;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告;通过分析所述种子广告的链接得到所述种子广告的链接模式;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告。
在本发明的一个实施方式中,所述用于识别网页中的广告的方法中的接收种子网页的步骤还包括:通过在所述种子网页所在的网站中扩展所接收到的种子网页得到多个种子网页。
根据本发明的另一方面,提供了一种用于识别网页中的广告的系统,包括:接收种子网页的装置;通过分析所述种子网页的源代码得到所述种子网页的节点特征的装置;根据预设的规则以及所述节点特征,确定所述种子网页中的种子广告的装置;通过分析所述种子广告的链接得到所述种子广告的链接模式的装置;以及利用所述链接模式,识别所述种子网页所在的网站中除了所述种子广告外的其它广告的装置。
在本发明的一个实施方式中,所述接收种子网页的装置还包括:通过在所述种子网页所在的网站中扩展所接收到的种子网页得到多个种子网页的装置。
通过本发明的方法和系统,可以识别出大量的非种子广告的其它广告,从而使得用户能够更全面、准确、迅速地识别类型、图案愈加多样的网页广告,带来了良好的用户体验,更好地满足了商业的需求。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的标号表示相同或相似的部件。在附图中,
图1示出了根据本发明一实施方式的用于识别网页中的广告的方法的流程图;
图2示出了根据本发明另一实施方式的用于识别网页中的广告的方法的流程图;
图3示出了根据本发明一实施方式的利用正则表达式对URL特征进行分析的表;
图4A示出了根据本发明示例性的两个种子网页及其对应的HTML源代码;
图4B示出了分析所得到的图4A中的第一个种子网页中的节点特征;
图4C示出了根据分析所得到的两个种子网页中的节点特征和预设的规则而确定并被标识的种子广告;
图5示出了根据本发明一实施方式的用于识别网页中的广告的系统的框图;
图6示出了根据本发明另一实施方式的用于识别网页中的广告的系统的框图;
具体实施方式
在下文中,将参考附图通过实施方式对本发明提供的用于识别网页中的广告的方法和系统进行详细地描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910177336.4/2.html,转载请声明来源钻瓜专利网。





