[发明专利]网站名称提取方法及装置在审
申请号: | 201210394288.6 | 申请日: | 2012-10-17 |
公开(公告)号: | CN103778115A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 蔡兵 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 名称 提取 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种网站名称提取方法及装置。
背景技术
随着互联网技术的迅猛发展和个人建立网站门槛的逐步降低,网站域名呈现爆炸性增长。而网站名称对显示网页来源和出处、网站备案和网站管理具有不可或缺的重要作用;同时,在离线状态下,通过分析用户的浏览记录获取用户在线浏览的网站名称,对后续分析用户相关数据具有十分重要的意义。
现有技术通常是采用人工采集的方法对网站名称进行配置,形成<网站域名,域名名称>的配置表,比如<news.sina.com.cn,新浪新闻>等;而越来越多网站的不断建立,使人工整理网站名称变得越来越困难;现有技术的人工采集网站名称的方法具有人工维护成本非常高的缺陷,且人工采集网站的覆盖度也非常有限。
发明内容
本发明的主要目的是提供一种网站名称提取方法及装置,旨在离线状态下自动提取网站名称。
本发明公开了一种网站名称提取方法,包括以下步骤:
从浏览记录中获取网站的页面标题,提取网站域名并分组;
提取相同所述网站域名下所有页面标题首尾的公共子段;
对提取公共子段后的所述页面标题进行整理,获取网站名称。
本发明还公开一种网站名称提取装置,包括:
域名获取模块,用于从浏览记录中获取网站的页面标题,提取网站域名并分组;
公共子段提取模块,用于提取相同所述网站域名下所有页面标题首尾的公共子段;
网站名称获取模块,用于对提取公共子段后的所述页面标题进行整理,获取网站名称。
本发明通过从浏览记录中获取网站的页面标题,提取网站域名并分组;提取相同所述网站域名下所有页面标题首尾的公共子段;对提取公共子段后的所述页面标题进行整理,获取网站名称的方法,具有在离线状态下自动提取网站名称的有益效果,实现方式简捷、覆盖面全。
附图说明
图1是本发明网站名称提取方法一实施例流程示意图;
图2是本发明网站名称提取装置一实施例结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下结合说明书附图及具体实施例进一步说明本发明的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明是在用户离线状态下,对用户在线上网浏览网页所产生的浏览记录或浏览日志进行分析,自动提取用户在线浏览网站的网站名称;为后续进行相关数据处理提供重要依据,比如用户从搜狐网站转载新闻至新浪微博时,标识该新闻是来源于搜狐网等。所述用户在线上网浏览网页包括:用户可以通过任何浏览器,利用手机、电脑等一切终端浏览网页;比如,通过手机UC浏览器(优视科技研发的一款手机浏览器)、通过台式电脑的火狐浏览器浏览网页等。
参照图1,图1是本发明网站名称提取方法一实施例流程示意图;如图1所示,本发明网站名称提取方法包括以下步骤:
步骤S01、从浏览记录中获取网站的页面标题,提取网站域名并分组;
利用浏览记录中保存的URL(Uniform Resource Locator,统一资源定位符)抓取网站页面内容,建立文档对象模型树,利用网页的html(Hypertext Markup Language,超文本标识语言)源码中的<title>标识提取网站的页面标题。根据提取的网站页面标题,提取每个URL域名,并根据提取的网站域名进行分组;在一优选的实施例中,对浏览记录中保存的众多URL进行分组,是将域名相同的URL分至同一组。所述域名相同的URL指域名关键字相同的URL,比如,对于URL为:
①http://society.people.com.cn/n/2012/0719/c1008-18551272.html的网站,该URL的域名关键字指的是“http://society.people.com.cn/”。若该浏览记录中,有URL为:②http://society.people.com.cn/n/2012/0719/c1008-18555463.html的网站,则上述URL的域名关键字也为“http://society.people.com.cn/”;则就能将上述域名相同的URL为①和URL为的②的URL分为同一组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210394288.6/2.html,转载请声明来源钻瓜专利网。