[发明专利]识别网络资源实体目录页的方法及装置有效
申请号: | 201310589670.7 | 申请日: | 2013-11-20 |
公开(公告)号: | CN103605742B | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 崔华;肖镜辉 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 刘丽君 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 网络资源 实体 目录 方法 装置 | ||
技术领域
本发明涉及网页识别技术领域,具体涉及识别网络资源实体目录页的方法及装置。
背景技术
网页浏览器是用于显示网页服务器或档案系统内的文件,并让用户与这些文件互动的一种软件。它可以用来显示在万维网或局域网络内的文字、影像及其他资讯。这些文字或影像,可以是连接到其他网址的超链接,用户可通过点击各种超链接的方式浏览各种资讯。
在众多丰富的网络资源中,有一类特殊的网络资源,这种网络资源以集、章、节等为单位,具有连续性,并且会进行周期性的更新。例如,某连续剧,每天更新两集,某漫画,每周更新一集,等等。对于这种网络资源,一般每个具体的实体会对应一个目录页,在这种目录页中,显示出该实体的每一个单位的浏览入口。例如,某实体为名称为“Area D异能领域”的漫画,则在该漫画的目录页中,会显示有该漫画各个剧集的播放入口,这种播放入口一般以超链接的形式存在,并且以“第1集”、“第2集”等为锚文本,用户可以通过点击某一播放入口,跳转到具体的剧集进行播放。如果该漫画的作者后续对该漫画进行了更新,产生了新的剧集,则会在该漫画的目录页中显示出新的剧集的播放入口。通常,需要用户主动关注并查找目录页的更新,以获取到网络资源的最新内容。
为了节省用户的操作成本,有些浏览器或者浏览器插件可以为用户提供网络资源的更新提醒服务,例如,浏览器可以采用后台的方式对某网络资源的更新情况进行监控,如果出现更新,可以将最新网络资源的超链接等提供给用户,用户直接点击该超链接即可获取到网络资源的最新更新内容,以此减少用户的获取资源更新的操作步骤。例如为用户主动提供最新电视剧集,最新漫画章节等。
在上述获取网络资源的更新情况的过程中,需要对网络资源实体的目录页的更新情况进行监控,对于用于监控的应用程序而言,如何通过程序自动从众多网页中识别出网络资源实体的目录页,是实现过程中需要解决的技术问题。现有技术中,一般会根据目录页的文本特点对网页中的文本内容进行分析的方式,来识别目录页。例如,目录页中一般包括“第××集”、“第××章”等具有一些规则的文本,因此,通过判断网页的文本内容中是否包含符合这些规则的文本,就可以判断出一个网页是否为某网络资源的目录页。但是,这种文本判断的方式需要预先建立一些规则,如果某网页中的文本不满足预置规则,则会被过滤掉。但是实际上,即使某网页的文本中不满足预置的规则,也可能属于目录页。可见,现有技术的可扩展性比较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别网络资源实体目录页的方法及装置,能够提高识别目录页的可扩展性。
依据本发明的一个方面,提供了一种识别网络资源实体目录页的方法,其特征在于,包括:
获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;
根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;
获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页。
可选地,所述过程信息包括所述实体资源网页所属的站点,所述实体资源网页的地址,以及点出所述实体资源网页时的引用页的地址;
所述根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹,包括:
根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集;其中,每个子集中包含同一站点下与同一网络资源实体相关的多个实体资源网页;
在同一子集内,根据各个实体资源网页的地址以及所述引用页的地址,还原出用户访问对应站点下对对应网络资源实体的实体访问轨迹;
所述获取所述实体访问轨迹上的起点网页地址,包括:
在一条所述实体访问轨迹上,对比目标实体资源网页对应的引用页地址与该实体访问轨迹上其他实体资源网页的地址,如果目标实体资源网页对应的引用页地址与任意一个其他实体资源网页的地址相同,则将该实体资源网页确定为实体访问轨迹上的非起点网页,并将该实体资源网页从所述访问轨迹上删除;
重复执行上一步骤,直至该实体访问轨迹上不再有任何实体资源网页对应的引用页地址与其他实体资源网页的地址相同;
将该实体访问轨迹上剩余的实体资源网页对应的引用页确定为所述实体访问轨迹上的起点网页。
可选地,所述根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310589670.7/2.html,转载请声明来源钻瓜专利网。