[发明专利]一种实现在网页上标注关键词的方法和服务器有效
申请号: | 201510149902.6 | 申请日: | 2015-03-31 |
公开(公告)号: | CN104715064B | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 李月雷;王志青;贾文杰 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;何立春 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 网页 标注 关键词 方法 服务器 | ||
1.一种实现在网页上标注关键词的方法,其中,该方法包括:
接收客户端侧发来的包含网页URL的关键词标注请求;
根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词;
将所查找到的一个或多个关键词以及与各关键词分别对应的搜索脚本代码返回给客户端,以使得客户端在加载渲染所述关键词标注请求中包含的网页URL所指的网页时,对该网页中包含的一个或多个关键词进行标注;
所述根据所述关键词标注请求中的网页URL,获取相应的一个或多个关键词包括:
根据所述关键词请求中包含的网页URL,从关键词数据库中查找出对应的一个或多个关键词;其中,所述关键词数据库中对应保存有网页URL和网页URL所指网页中包含的关键词;
该方法进一步包括离线制作所述关键词数据库的步骤,具体包括:
获取URL列表;
利用网络蜘蛛抓取所述URL列表中的各URL对应的网页HTML代码;
从网页HTML代码中抽取网页正文相关信息;
从网页正文相关信息中提取关键词;
所述获取URL列表包括:
周期性地获取浏览器端推荐的用户访问日志;
从用户访问日志中获取用户访问的URL;
将获取的用户访问的URL添加到URL列表中。
2.如权利要求1所述的方法,其中,所述关键词数据库采用Redis作为存储,并采用主从备份。
3.如权利要求1所述的方法,其中,该方法进一步包括:
将关键词数据库中的查询频率大于预设值的热门数据加载到内存中;
根据所述关键词请求中包含的网页URL,先查询内存,再查询关键词数据库。
4.如权利要求1所述的方法,其中,在将获取的用户访问的URL添加到URL列表中之前该方法进一步包括:
对获取的用户访问的URL根据对应网页的浏览量进行筛选处理,将筛选后的URL添加到URL列表中。
5.如权利要求1所述的方法,其中,在将获取的用户访问的URL添加到URL列表中之前该方法进一步包括:
判断获取的一个用户访问的URL是否在URL白名单中,如果在,则将该URL添加到URL列表中;
和/或,判断获取的一个用户访问的URL是否在URL黑名单中,如果在,则不将该URL添加到URL列表中。
6.如权利要求1所述的方法,其中,所述从网页HTML代码中抽取网页正文相关信息包括:
提取网页HTML代码中的title标签、mate info标签中的内容以及正文内容,滤除广告和外链。
7.如权利要求1所述的方法,其中,从网页正文相关信息中提取关键词包括:
对网页正文相关信息进行分词处理;
将分词后的串逐一与关键词字典进行匹配,命中则作为关键词进行提取。
8.如权利要求7所述的方法,其中,所述关键词字典中的关键词的来源包括如下中的一种或多种:
机构名称;
搜索机构提供的“百科”库中词;
滑词,即用户在浏览网页时,在网页上选中并进行搜索的词;
搜索机构提供的“实体库”中的词,所示实体库中规定了实体之间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510149902.6/1.html,转载请声明来源钻瓜专利网。