[发明专利]一种新闻列表区域的确定方法及装置有效
| 申请号: | 201611238479.8 | 申请日: | 2016-12-28 |
| 公开(公告)号: | CN106802933B | 公开(公告)日: | 2020-04-10 |
| 发明(设计)人: | 王勇 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06F16/957 | 分类号: | G06F16/957 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新闻 列表 区域 确定 方法 装置 | ||
技术领域
本发明涉信息处理技术领域,尤其涉及一种新闻列表区域的确定方法及装置。
背景技术
在互联网新闻聚合应用中,需要使用爬虫爬取大量的新闻网站,然后将相关的新闻聚合在一起,并根据用户的阅读习惯建立起用户的兴趣模型,并将新闻推送给对这些主题感兴趣的用户。
新闻网站一般包括新闻首页和新闻页面两种不同的页面,新闻首页中一般会包含一个最新更新新闻的新闻列表,为了获取最新的新闻,爬取系统需要自动地确定新闻列表,即需要确定新闻列表区域。但是,确定新闻列表区域不是一个容易的问题,这是因为,新闻首页中,除了新闻列表之外,还包括主菜单、广告条、版权信息等无关的因素。
传统爬虫在确定新闻列表时,会将非新闻列表如广告列表等也作为新闻列表识别并爬取出来,这导致新闻列表的识别准确率较低,并且,在将新闻推送至用户时,由于推送的内容中除了包含新闻列表外,还包含了非新闻列表,而冗余的非新闻列表导致大量的网络资源被浪费。
发明内容
有鉴于此,本发明提供了一种新闻列表区域的确定方法及装置,用以解决传统爬虫在确定新闻列表时,会将非新闻列表如广告列表等也作为新闻列表识别并爬取出来,从而导致新闻列表的识别准确率较低,且在将新闻推送至用户时,冗余的非新闻列表导致大量的网络资源被浪费的问题,其技术方案如下:
一种新闻列表区域的确定方法,所述方法包括:
判断目标页面块中是否包含满足预设分割条件的页面子块;
当所述目标页面块中包含所述满足预设分割条件的页面子块时,将所述满足预设分割条件的页面子块作为目标页面块分割为多个页面子块,转入执行所述判断目标页面块中是否包含满足预设分割条件的页面子块;
当所述目标页面块中不包含满足所述预设分割条件的页面子块时,基于所述目标页面块中的页面子块判断所述目标页面块是否满足预设新闻列表判定条件,当所述目标页面块满足所述预设新闻列表判定条件时,将所述目标页面块确定为新闻列表区域。
其中,所述判断目标页面块中是否包含满足预设分割条件的页面子块,包括:
在所述目标页面块中查找在目标页面中所占比例大于预设值,且在所述目标页面中的位置满足预设位置条件的页面子块,获得查找结果;
当所述查找结果表明在所述目标页面块中查找到在所述目标页面中所占比例大于所述预设值,且在所述目标页面中的位置满足所述预设位置条件的页面子块时,判定所述目标页面块中包含满足所述预设分割条件的页面子块。
其中,所述预设位置条件为:在水平方向上位于所述目标页面的中部,且在垂直方向上位于所述目标页面的中部或上部。
其中,所述将所述目标页面块分割为多个页面子块,包括:
基于VIPS算法将所述目标页面块进行一次分割,获得所述多个页面子块。
其中,当所述目标页面块中满足所述预设分割条件的页面子块为多个时,所述将所述满足预设分割条件的页面子块作为目标页面块分割为多个页面子块,执行所述判断目标页面块中是否包含满足预设分割条件的页面子块,包括:
当所述目标页面块中满足所述预设分割条件的页面子块为多个时,对于每个所述满足预设分割条件的页面子块,将该页面子块作为目标页面块分割为多个页面子块,执行所述判断目标页面块中是否包含满足预设分割条件的页面子块。
其中,所述基于所述目标页面块中的多个页面子块判断所述目标页面块是否满足预设新闻列表判定条件,包括:
判断所述目标页面块中页面子块的数量是否大于或等于预设数量;
当所述目标页面块中页面子块的数量大于或等于所述预设数量时,判断所述目标页面块中的各个页面子块是否同时满足三个预设条件,当所述目标页面块中的各个页面子块同时满足所述三个预设条件时,判定所述目标页面块满足所述预设新闻列表判定条件;
其中,所述三个预设条件分别为:所述各个页面子块均包含至少一个链接、所述各个页面子块具有相同的宽度、所述各个页面子块具有相同的链接密度。
一种新闻列表区域的确定装置,所述装置包括:第一判断模块、页面分割模块、第二判断模块和确定模块;
所述第一判断模块,用于判断目标页面块中是否包含满足预设分割条件的页面子块;
所述页面分割模块,用于当所述第一判断模块判断出所述目标页面块中包含所述满足预设分割条件的页面子块时,将所述满足预设分割条件的页面子块作为目标页面块分割为多个页面子块,并触发所述第一判断模块判断目标页面块中是否包含满足预设分割条件的页面子块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611238479.8/2.html,转载请声明来源钻瓜专利网。





