[发明专利]百分位链接聚类有效
申请号: | 201880044850.8 | 申请日: | 2018-08-30 |
公开(公告)号: | CN111201524B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 李峰;X.王 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q30/02;G06F16/335;G06F16/332;G06F16/387;G06F18/23;G06F16/9535 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 百分 链接 | ||
1.一种由数据处理装置实施的方法,所述方法包括,在一个或更多迭代中的每一个迭代处:
获得定义多个数据元素的当前聚类的数据,其中所述当前聚类定义所述数据元素中的每一个数据元素向相应集群的分配,并且其中每个集群代表一个或更多数据元素的相应组;
确定用于多个集群对中的每一个集群对的相应链接值,其中每个集群对包括由所述当前聚类定义的相应第一集群和由所述当前聚类定义的相应第二集群,其中,确定用于集群对的链接值包括:
确定用于所述集群对的成对相似性值的集合,其中每个成对相似性值定义以下两者之间的相似性度量:(i)来自所述集群对的第一集群的第一数据元素、与(ii)来自所述集群对的第二集群的第二数据元素;以及
将所述成对相似性值的集合的给定百分位作为用于所述集群对的链接值分配,其中所述给定百分位大于0并且小于100;
基于用于所述多个集群对的链接值标识要合并的具体集群对;以及
通过合并所标识的集群对更新定义所述当前聚类的数据,
其中,所述数据元素是关键字,并且
其中,(i)来自所述集群对的第一集群的第一数据元素、与(ii)来自所述集群对的第二集群的第二数据元素之间的相似性度量,表征以下两者之间的相似性:(i)响应于向搜索引擎提供来自所述集群对的第一集群的第一数据元素作为查询而获得的搜索结果的第一集合、与(ii)响应于向所述搜索引擎提供来自所述集群对的第二集群的第二数据元素作为查询而获得的搜索结果的第二集合。
2.根据权利要求1所述的方法,其中,在所述一个或更多迭代的第一迭代处,所述聚类定义所述数据元素中的每一个数据元素向不同相应集群的分配。
3.根据权利要求1所述的方法,其中,基于用于所述多个集群对的链接值标识要合并的具体集群对包括:
标识具有最高链接值的具体集群对。
4.根据权利要求3所述的方法,还包括:
确定所述最高链接值大于预定的阈值链接值。
5.根据权利要求1所述的方法,还包括:
在所述一个或更多迭代的最终迭代之后,输出定义所述当前聚类的数据。
6.根据权利要求1所述的方法,其中,确定用于所述集群对的成对相似性值的集合,其中每个成对相似性值定义以下两者之间的相似性度量:(i)来自所述集群对的第一集群的第一数据元素、与(ii)来自所述集群对的第二集群的第二数据元素,包括:
访问包括预先计算的成对相似性值的数据存储,所述预先计算的成对相似性值定义所述多个数据元素的每对数据元素之间的相应相似性度量。
7.根据权利要求1所述的方法,其中,基于响应于将第一关键字作为查询提供给搜索引擎而获得的搜索结果的第一集合和响应于将第二关键字作为查询提供给搜索引擎而获得的搜索结果的第二集合中,有多少共同的搜索结果,来确定第一关键字和第二关键字之间的相似性度量。
8.根据权利要求7所述的方法,还包括,在所述一个或更多迭代的最终迭代之后:
接收包括特定关键字的数字分量请求;
确定具体数字分量对于响应于所述数字分量请求的传输是合格的,包括:
确定所述具体数字分量具有指定包括所述特定关键字的关键字集群的分发参数,其中,所述关键字集群是在所述一个或更多迭代的最终迭代处由所述当前聚类定义的集群;以及
响应于所述数字分量请求发送所述具体数字分量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880044850.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:将固体连续溶解在反应介质中的方法
- 下一篇:具有加强件的防风雨电气外壳