[发明专利]用于识别可视叶页面的方法和系统有效
| 申请号: | 201780088306.9 | 申请日: | 2017-12-08 |
| 公开(公告)号: | CN110431550B | 公开(公告)日: | 2023-10-10 |
| 发明(设计)人: | V.曼尼卡瓦萨甘 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06F16/958 | 分类号: | G06F16/958 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 识别 可视 页面 方法 系统 | ||
在一些实施方式中,一种方法包括:对于多个主机中的每一个,识别由主机托管的可视叶页面,可视叶页面中的每个是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页,识别由主机托管的中心页面的集合,每个中心页面通过基于图像的链接链接到可视叶页面中的至少一个可视叶页面,并且对于每个中心页面,通过对于每个可视叶页面确定特征值的集合来生成表示中心页面链接到的可视叶页面的集群数据,特征值的集合中的每个特征值指示可视叶页面的预定义特征,并且从该特征值的集合生成中心特征值的集合作为中心页面的集群数据,该中心特征值的集合指示每个相应预定义特征的中心趋势。
背景技术
互联网提供了对各种资源的访问。表征任何特定页面的格式和内容对于搜索引擎处理很有用。例如,内容主要为文本的页面可能对某些类型的搜索有用,而内容主要为可视的页面可能对其他类型的搜索有用。
可能对一些搜索操作有用的特定资源是可视叶页面(visual leaf page)。叶页面是获取信息、执行动作或提供关于页面中描述主题的信息的特定集合的终端页面。当然,尽管叶页面可能具有到其他页面的链接,但在专门为实现上述目标而设计的页面的意义上,它仍然被认为是“终端”页面。可视叶页面是对表示该页面中描述的主题的一个或多个显著图像具有主导意图的叶页面。因此,对页面中的图像的移除将导致其信息上显著减少。例如,当用户请求来自针对特定类型的活动(诸如购物或寻找食谱)的搜索引擎的图像搜索结果时,可视叶页面可以提供与用户正在搜索的内容高度相关的内容,并且这些可视叶页面可以提供比不是可视叶页面的页面呈现的结果更相关的结果。
发明内容
本文档涉及识别可视叶页面。
一般而言,本说明书中描述的主题的一个创新方面可以体现在一种方法中,该方法包括:对于多个主机中的每一个,由一个或多个计算机识别由主机托管的可视叶页面,其中每个可视叶页面是包括定义相对于网页的所有其他内容突出地显示的图像或视频的图像数据的网页;由一个或多个计算机识别由主机托管的一个或多个中心页面的集合,一个或多个中心页面的集合中的每个中心页面通过中心页面上的基于图像的链接链接到可视叶页面中的至少一个可视叶页面,并且对于一个或多个中心页面的集合中的每个中心页面,生成表示中心页面链接到的可视叶页面的集群数据。该生成包括对于中心页面链接到的每个可视叶页面确定特征值的集合,其中每个特征值指示可视叶页面的预定义特征,并且从该特征值的集合生成中心特征值的集合作为中心页面的集群数据,该中心特征值的集合指示可视叶页面的每个相应预定义特征的中心趋势。
这些和其他实施例中的每一个可以可选地包括以下特征中的一个或多个。
在一些示例中,该方法包括,对于多个主机中的每个主机,将来自主机的集群数据合并成集群模型,其中每个集群模型是从中心特征值的两个或更多个集合生成的。该合并包括确定中心特征值的两个或更多个集合之间的相应差异,并且对于相应差异小于预定阈值的中心特征值的两个或更多个集合中的每一个,将中心特征值的这两个或更多个集合合成集群模型,该集群模型指示被合并的两个或更多个集群模型中的可视叶页面的中心趋势,并且将该集群模型与主机唯一地关联。该方法还可以包括接收指示响应于查询的网页的数据,该数据包括网页的特征值的集合以及指示网页的主机的数据,其中每个特征值指示网页的预定义特征,基于网页的主机识别与主机唯一地关联的集群模型,将识别到的集群模型中的每一个应用于网页以生成网页的相应模型分数,选择作为相应模型分数中的最高模型分数的模型分数,确定网页的选择的模型分数是否满足预定的阈值模型分数,并且响应于确定网页的选择的模型分数满足阈值模型分数,将网页分类为可视叶页面。在一些示例中,该网页具有对于查询的对应搜索分数,并且该方法包括基于将该网页分类为可视叶页面来修改该网页的搜索分数。
在一些示例中,识别由主机托管的可视叶页面基于与页面的所有其他内容相比较的、图像或视频的语义分析满足相关度的阈值。
在一些示例中,识别由主机托管的可视叶页面基于确定图像数据指示图像的可定制选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780088306.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理装置、信息处理方法及程序
- 下一篇:具有主成分分析的混合数据指纹





