[发明专利]可搜索索引在审
申请号: | 201510221966.2 | 申请日: | 2015-05-04 |
公开(公告)号: | CN105045799A | 公开(公告)日: | 2015-11-11 |
发明(设计)人: | J·哈姆森;T·D·钱德拉;M·方图拉 | 申请(专利权)人: | 谷歌公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 索引 | ||
背景技术
推荐系统可以具有分离的信息检索和机器学习的排名阶段。信息检索阶段基于各种信号从语料库选择文档(视频、广告、音乐、文本文档等)并且机器学习的系统对信息检索系统的输出进行排名。例如,当用户录入查询“猫”时,上下文信息检索系统可以从所有可用的广告中选择包含词语“猫”的候选广告集。此候选广告集继而可以基于机器学习的模型被排名,该机器学习的模型已经被训练以基于各种特征(诸如,用户的类型、用户的位置、一天中进行查询的时间等)来预测广告被用户点入(clickthrough)的可能性。信息检索工具是计算上高效的,但是仅可以产生向用户最佳推荐的项目的粗略估计。机器学习的模型能够产生更精确的推荐,但是与信息检索工具相比经常在计算上更密集。此外,因为信息检索工具较不准确,因此其可以使用机器学习的模型从考虑中排除可能另外排名高的某些候选。
发明内容
根据本公开主题的实现方式,来自机器学习的模型的多个规则可以由计算机化的机器学习系统生成并接收,每个规则包含成果、一个或多个特征以及由机器学习的模型针对该一个或多个特征和成果预测的成果概率。针对基于令牌的索引的条目可以针对多个规则中的每个规则被生成并且可以包含基于规则的一个或多个特征、规则的成果和规则的成果概率的一个或多个令牌。查询可以被接收并且对应于该查询的令牌的子集可以被标识。基于令牌的索引可以被搜索以基于令牌的子集获得多个成果概率。成果可以基于多个成果概率被选择并且可以被提供给用户。选定成果的子集可以被排名。例如,数百视频(成果)可以通过概率排名并且前二十可以从最高概率到最低概率被显示给用户。
根据本公开的系统和技术可以基于作为机器学习系统的产品的模型的规则和结果生成或修改一个或多个索引。生成或修改的索引可以被用于基于搜索技术来提供结果。本公开主题的附加特性、优点和实现方式可以通过考虑以下具体实施方式、附图和权利要求书进行阐述或者变得容易理解。此外,应当理解以上发明内容和以下具体实施方式包括各种示例并且旨在提供进一步的解释而不是限制权利要求书的范围。
附图说明
为提供对本公开主题的进一步理解而包括的附图并入在本说明书中并且构成本说明书的一部分。附图还图示了本公开主题的各实现方式,并且与具体实施方式一起用于解释本公开主题的各实现方式的原理。并未试图示出比对于本公开主题以及在其中可实践本公开主题的各种方法的基本理解所必需的更为详细的结构细节。
图1示出了根据本公开主题的一个实现方式的用于经由基于令牌的索引提供成果/成果概率的示例图示。
图2a示出了根据本公开主题的一个实现方式的生成基于令牌的索引的示例过程。
图2b示出了根据本公开主题的一个实现方式的基于成果概率针对成果搜索基于令牌的索引的示例过程。
图3示出了根据本公开主题的一个实现方式的计算机。
图4示出了根据本公开主题的一个实现方式的网络配置。
具体实施方式
根据本公开主题的各实现方式,可搜索索引可以基于从机器学习的模型推导的规则来生成。通过此方式,机器学习的模型的卓越智能和逻辑可以被体现在易于可搜索的索引中。标准信息检索工具可以用于使用该索引高效地检索数据。这通过消除在信息检索阶段另外可能被机器学习的模型高评分的候选的损失而比具有分离的信息检索和机器学习排名阶段的系统相比更为有利。总之,根据本公开主题的实现方式更多候选可以被更精确地排名。
本公开的技术可以被应用于使用有监督的学习数据(诸如标记的示例)生成的机器学习的模型。该标记的示例可以被输入机器学习系统并且机器学习系统的输出可以是包含响应于标记的数据而生成的权重的机器学习的模型。该标记的示例可以包含成果(outcome)以及与特定实例相关联的属性两者。应当理解,权重和成果可以是无单位数值、百分比、出现计数或者其他定量。机器学习系统可以接收标记的数据(例如,标记的示例)以开发包含响应于有监督的标记的数据而生成的权重的机器学习的模型。一个或多个规则可以由机器学习的模型创建。
规则可以包括成果、特征集和概率。例如,规则:
(keyword:car,video:carmaker_1)->.03
指示当用户在搜索引擎提交搜索关键字“车(car)”(特征)并且该用户被呈现以关于carmaker_1的视频(成果)时,存在3%的概率用户将选择该视频以查看它(概率)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510221966.2/2.html,转载请声明来源钻瓜专利网。