[发明专利]百分位链接聚类有效
申请号: | 201880044850.8 | 申请日: | 2018-08-30 |
公开(公告)号: | CN111201524B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 李峰;X.王 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q30/02;G06F16/335;G06F16/332;G06F16/387;G06F18/23;G06F16/9535 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 百分 链接 | ||
用于聚类数据元素的方法、系统、和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,方法包括确定用于多个集群对中的每一个集群对的相应链接值,其中每个集群对包括相应第一集群和相应第二集群。确定用于集群对的链接值包括确定用于集群对的成对相似性值的集合。每个成对相似性值定义以下两者之间的相似性度量:(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素。将用于集群对的链接值分配为成对相似性值的集合的给定百分位,其中给定百分位大于0并且小于100。基于集群对的链接值合并集群对。
技术领域
本说明书涉及使用聚类(clustering)模型处理数据。
背景技术
聚类模型能够处理数据元素的集合以生成定义数据元素中的每一个数据元素向一个或更多数据元素的相应组的分配的聚类。
发明内容
本说明书描述了系统,该系统实施为在一个或更多定位中的一个或更多计算机上的计算机程序,计算机程序确定数据元素的集合的聚类。
根据第一方面,提供了方法,该方法包括,在一个或更多迭代中的每一个迭代处,获得定义多个数据元素的当前聚类的数据。当前聚类定义数据元素中的每一个数据元素向相应集群(cluster)的分配,并且每个集群代表一个或更多数据元素的相应组。确定用于多个集群对中的每一个集群对的相应链接值,其中每个集群对包括由当前聚类定义的相应第一集群和由当前聚类定义的相应第二集群。确定用于集群对的链接值包括确定用于集群对的成对相似性值的集合,其中每个成对相似性值定义以下两者之间的相似性度量:(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素。将用于集群对的链接值分配为作为成对相似性值的集合的给定百分位,其中给定百分位大于0并且小于100。具体集群对基于用于集群对的链接值被标识为要合并。通过合并标识的集群对更新定义当前聚类的数据。
在一些实施方式中,在一个或更多迭代的第一迭代处,聚类定义数据元素中的每一个数据元素向不同相应集群的分配。
在一些实施方式中,基于用于多个集群对的链接值标识要合并的具体集群对包括标识具有最高链接值的具体集群对。
在一些实施方式中,方法包括确定最高链接值大于预定阈值链接值。
在一些实施方式中,方法包括在一个或更多迭代的最终迭代之后输出定义当前聚类的数据。
在一些实施方式中,确定用于集群对的成对相似性值的集合,其中每个成对相似性值定义以下两者之间的相似性度量:(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素,包括访问包括预先计算的成对相似性值的数据存储,该预先计算的成对相似性值定义多个数据元素的每对数据元素之间的相应相似性度量。
在一些实施方式中,数据元素是关键字。
在一些实施方式中,(i)来自集群对的第一集群的具体数据元素、与(ii)来自集群对的第二集群的给定数据元素之间的相似性度量表征以下两者之间的相似性:(i)响应于将具体数据元素作为查询向搜索引擎提供而获得的搜索结果的具体集合、与(ii)响应于将给定数据元素作为查询向搜索引擎提供而获得的搜索结果的给定集合。
在一些实施方式中,方法包括,在一个或更多迭代的最终迭代之后,接收包括特定关键字的数字分量请求。通过确定具体数字分量具有指定包括特定关键字的关键字集群的分发参数(distribution parameter),确定具体数字分量对于响应于数字分量请求的传输是合格的。关键字集群是在一个或更多迭代的最终迭代处由当前聚类定义的集群。响应于数字分量请求而发送具体数字分量。
根据第二方面,提供了系统,该系统包括数据处理装置和与数据处理装置数据通信的存储器。存储器存储使得数据处理装置执行先前描述的方法的操作的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880044850.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:将固体连续溶解在反应介质中的方法
- 下一篇:具有加强件的防风雨电气外壳