[发明专利]网页收藏方法和装置有效
申请号: | 201310603048.7 | 申请日: | 2012-03-31 |
公开(公告)号: | CN103617223B | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 曾强;张平;魏钦刚 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 刘杰 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 收藏 方法 装置 | ||
1.一种网页收藏方法,其包括:
利用写入网页的用于抓取网页内容的脚本代码,客户端抓取待收藏网页的内容描述信息;
解析所述内容描述信息;
根据解析结果抓取所述待收藏网页的内容;
保存所抓取的待收藏网页的内容;
所述利用写入网页的用于抓取网页内容的脚本代码,包括:
在用户所浏览的网页中添加内嵌框架;
在所述内嵌框架中写入所述脚本代码。
2.根据权利要求1所述的方法,其中,所述内容描述信息包括文档对象模型信息。
3.根据权利要求2所述的方法,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
4.根据权利要求2所述的方法,其中,解析所述内容描述信息进一步包括:从所述内容描述信息中抽取出待收藏网页所包含的文字、图片。
5.根据权利要求3所述的方法,其中,解析所述内容描述信息进一步包括:从所述内容描述信息中抽取出待收藏网页所包含的文字、图片。
6.根据权利要求4所述的方法,其中,从所述内容描述信息中抽取出待收藏网页所包含的图片为从所述内容描述信息中抽取出图片文件所在的源位置并从该源位置下载该图片文件。
7.根据权利要求5所述的方法,其中,从所述内容描述信息中抽取出待收藏网页所包含的图片为从所述内容描述信息中抽取出图片文件所在的源位置并从该源位置下载该图片文件。
8.根据权利要求1至7中任一项所述的方法,还包括:
根据所保存的待收藏网页的内容生成页面摘要;
把所述页面摘要存放在收藏列表中以便展示。
9.根据权利要求8所述的方法,其中,根据所保存的待收藏网页的内容生成页面摘要进一步包括:
根据网页标题信息生成页面摘要的标题;
根据待收藏网页的页面文字生成页面摘要中的文字部分;
根据页面图片信息生成页面摘要中的缩略图。
10.一种网页收藏装置,其包括:
抓取单元,适于利用写入网页的用于抓取网页内容的脚本代码,客户端抓取待收藏网页的内容描述信息;
解析单元,适于解析所述内容描述信息;
获取单元,适于根据解析结果抓取所述待收藏网页的内容;
保存单元,适于保存所抓取的待收藏网页的内容;
其中,还包括:
代码注入单元,用于向用户所浏览的网页中写入用于抓取网页内容的脚本代码;
所述代码注入单元,包括:
框架添加子单元,用于在用户所浏览的网页中添加内嵌框架;
代码写入子单元,用于在所述内嵌框架中写入所述脚本代码。
11.根据权利要求10所述的装置,其中,所述内容描述信息包括文档对象模型信息。
12.根据权利要求11所述的装置,其中,所述内容描述信息还包括待收藏网页的页面超链接和/或标题。
13.根据权利要求11所述的装置,其中,所述解析单元还适于:从所述内容描述信息中抽取出待收藏网页所包含的文字、图片。
14.根据权利要求12所述的装置,其中,所述解析单元还适于:从所述内容描述信息中抽取出待收藏网页所包含的文字、图片。
15.根据权利要求13所述的装置,其中,从所述内容描述信息中抽取出待收藏网页所包含的图片为从所述内容描述信息中抽取出图片文件所在的源位置并从该源位置下载该图片文件。
16.根据权利要求14所述的装置,其中,从所述内容描述信息中抽取出待收藏网页所包含的图片为从所述内容描述信息中抽取出图片文件所在的源位置并从该源位置下载该图片文件。
17.根据权利要求10至16中任一项所述的装置,还包括:
生成单元,适于根据所保存的待收藏网页的内容生成页面摘要;
存放单元,适于把所述页面摘要存放在收藏列表中以便展示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310603048.7/1.html,转载请声明来源钻瓜专利网。