[发明专利]从网页中提取图片的方法、装置及客户端设备有效
| 申请号: | 201310294425.3 | 申请日: | 2013-07-12 |
| 公开(公告)号: | CN104281629B | 公开(公告)日: | 2018-12-21 |
| 发明(设计)人: | 张凯宏;徐鸣 | 申请(专利权)人: | 珠海豹好玩科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
| 地址: | 519000 广东省珠海市横琴新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 提取 图片 方法 装置 客户端 设备 | ||
本发明提供一种从网页中提取图片的方法、装置及客户端设备,属于互联网应用技术领域。其中,从网页中提取图片的方法,包括:步骤a:获取所述网页的源代码,根据所述源代码获取所述网页的实质内容;步骤c:确定所述实质内容中的段落的重要程度,确定包含有图片的所述段落中重要程度最高的段落,并将所述重要程度最高的段落中的图片确定为待提取的目标图片;步骤d:获取所述目标图片,以将所述目标图片展示给用户,使得所述用户能够在未打开所述网页时通过查看所述目标图片了解所述网页的内容。本发明的技术方案可以从网页中提取与网页内容具有较高相关度的图片。
技术领域
本发明涉及互联网应用技术领域,特别是指一种从网页中提取图片的方法、装置及客户端设备。
背景技术
一般情况下,网页页面中除了有文字信息之外,还放置有一些图片,以更加形象直观地体现网页内容。在很多情况下,用户浏览网页时并不会浏览网页页面的全部内容,而只关注网页页面中的图片信息,从图片信息中大致了解网页的内容。这样为了方便用户,可以在用户没有打开网页时,从用户将要打开的网页中提取代表网页内容的某张图片展示给用户,以提供预览栏、在预览栏中展示图片的形式,使用户通过提取的图片提前了解网页的内容。
但是,如果只是简单地从一个网页中随机提取一张图片展示给用户,并不能保证提取的图片与网页内容具有很高的相关度,也就不能保证用户从提取的图片中较为准确的了解网页的大致内容。
发明内容
本发明要解决的技术问题是提供一种从网页中提取图片的方法、装置及客户端设备,可以从网页中提取与网页内容具有较高相关度的图片。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种从网页中提取图片的方法,包括:
步骤a:获取所述网页的源代码,根据所述源代码获取所述网页的实质内容;
步骤c:确定所述实质内容中的段落的重要程度,确定包含有图片的所述段落中重要程度最高的段落,并将所述重要程度最高的段落中的图片确定为待提取的目标图片;
步骤d:获取所述目标图片,以将所述目标图片展示给用户,使得所述用户能够在未打开所述网页时通过查看所述目标图片了解所述网页的内容。
进一步地,上述方案中,所述步骤a之后,所述步骤c之前,所述方法还包括:
步骤b:根据所述获取的所述网页的实质内容,确定所述实质内容中的段落中相邻段落的相关度,根据所述确定的相邻段落的相关度对所述网页的实质内容中的段落进行合并处理,所述合并处理后,所述网页的实质内容中的段落包括合并段落和未合并段落;
所述步骤c中确定所述实质内容中的段落的重要程度包括:
确定所述合并段落和未合并段落的重要程度;或者
确定所述合并段落和未合并段落中包含有图片的段落的重要程度。
进一步地,上述方案中,所述步骤b中根据所述获取的所述网页的实质内容,确定所述实质内容中的段落中相邻段落的相关度包括:
根据所述获取的所述网页的实质内容,将所述网页的实质内容中每个段落的文字拆分为多个词语,并对拆分后的词语进行过滤,去除其中的干扰词,并统计剩余的非干扰词的词频,所述词频为所述非干扰词在所述段落中出现的次数;
根据每个所述段落中的非干扰词及非干扰词的词频,确定所述实质内容中的段落中相邻段落的相关度。
进一步地,上述方案中,所述根据每个段落中的非干扰词及非干扰词的词频,确定所述实质内容中的段落中相邻段落的相关度包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海豹好玩科技有限公司,未经珠海豹好玩科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310294425.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种导管夹
- 下一篇:一种新型妇产科消毒刷





