[发明专利]识别网络资源实体目录页的方法及装置有效
申请号: | 201310589670.7 | 申请日: | 2013-11-20 |
公开(公告)号: | CN103605742B | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 崔华;肖镜辉 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 刘丽君 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 网络资源 实体 目录 方法 装置 | ||
1.一种识别网络资源实体目录页的方法,其特征在于,包括:
获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息;
根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹;
获取所述实体访问轨迹上的起点网页地址,根据所述实体访问轨迹上的起点网页地址,确定该特定网络资源实体的目录页,具体包括:
获取同一站点的同一网络资源实体对应的两条以上实体访问轨迹上的多个起点网页;
分别统计所述多个起点网页中每个起点网页出现次数,并将出现次数符合预置条件的起点网页,确定为对应特定网络资源实体在对应站点的目录页。
2.根据权利要求1所述的方法,其特征在于,所述过程信息包括所述实体资源网页所属的站点,所述实体资源网页的地址,以及点出所述实体资源网页时的引用页的地址;
所述根据所述过程信息还原出用户访问特定网络资源实体的实体访问轨迹,包括:
根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集;其中,每个子集中包含同一站点下与同一网络资源实体相关的多个实体资源网页;
在同一子集内,根据各个实体资源网页的地址以及所述引用页的地址,还原出用户访问对应站点下对对应网络资源实体的实体访问轨迹;
所述获取所述实体访问轨迹上的起点网页地址,包括:
在一条所述实体访问轨迹上,对比目标实体资源网页对应的引用页地址与该实体访问轨迹上其他实体资源网页的地址,如果目标实体资源网页对应的引用页地址与任意一个其他实体资源网页的地址相同,则将该实体资源网页确定为实体访问轨迹上的非起点网页,并将该实体资源网页从所述访问轨迹上删除;
重复执行上一步骤,直至该实体访问轨迹上不再有任何实体资源网页对应的引用页地址与其他实体资源网页的地址相同;
将该实体访问轨迹上剩余的实体资源网页对应的引用页确定为所述实体访问轨迹上的起点网页。
3.如权利要求2所述的方法,其特征在于,所述根据所述实体资源网页对应的网络资源实体以及所属的站点,将所述实体资源网页划分为多个子集,包括:
以预先获取的网络资源实体的实体名,采用最长匹配的方法匹配所述实体资源网页的标题,根据匹配的结果将所述实体资源网页划分为多个子集。
4.根据权利要求1所述的方法,其特征在于,还包括:
在获取到所述多个起点网页后,判断所述多个起点网页是否与所述同一站点的同一网络资源实体相关,并将不相关的起点网页滤除。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取用户浏览网页过程中,点出与网络资源实体相关的实体资源网页的过程信息,包括:
获取用户浏览网页的过程中所点出网页的地址,以及与所点出网页对应的引用页的地址;
以预先获取的实体名,和/或实体资源地址,对用户点出网页的地址,以及所述引用页的地址进行过滤,获取用户点出的地址以及所述引用页的地址中与所述实体名,和/或所述实体资源地址相匹配的地址。
6.根据权利要求5所述的方法,其特征在于,还包括,预先通过以下方式获取所述实体资源地址:
根据已知导航页面中的超链接的超文本标记语言HTML标签代码,提取所述实体资源地址;
和/或,
从用户的网页收藏夹中获取包含特定关键词的地址作为所述实体资源地址;
和/或,
判断用户网页收藏夹的目录名称中是否包含特定关键词,若包含则提取目录中的地址作为所述实体资源地址;
和/或,
获取站点首页的标题中特定关键词的站点地址作为所述实体资源地址。
7.根据权利要求5所述的方法,其特征在于,预先通过以下方式获取所述实体名:
抓取已知的网络资源实体索引页中超链接的锚文本;
对所述锚文本进行降噪过滤,从所述锚文本中提取所述实体名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310589670.7/1.html,转载请声明来源钻瓜专利网。