[发明专利]利用概率谓词来加速机器学习推理在审
申请号: | 201980038901.0 | 申请日: | 2019-05-30 |
公开(公告)号: | CN112639769A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | S·乔杜里;S·坎杜拉;路遥 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 姚杰 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 概率 谓词 加速 机器 学习 推理 | ||
提出了利用概率谓词(PP)来加快需要机器学习推理的搜索的实现。一种方法包括接收搜索查询,该搜索查询包括用于利用用户定义函数(UDF)来过滤数据库中的二进制大对象的谓词。过滤要求UDF对二进制大对象进行分析,以确定通过过滤的二进制大对象。此外,该方法包括基于该谓词来确定PP的PP序列。每个PP是分类器,该分类器计算满足PP子句的PP‑二进制大对象概率。PP序列定义表达式以组合PP。此外,该方法包括如下操作:该操作执行PP序列以确定该二进制大对象满足表达式的二进制大对象概率,确定哪些二进制大对象满足准确性阈值,丢弃具有小于该准确性阈值的二进制大对象概率的二进制大对象,以及对尚未被丢弃的二进制大对象执行数据库查询。然后呈现结果。
技术领域
本文公开的主题总体上涉及用于加速复杂数据库查询,尤其是用于加速支持机器学习推理任务的复杂数据库查询的方法、系统和程序。
背景技术
一些搜索查询基于关于数据库中数据的信息,但是该信息不能使用标准数据库查询立即搜索,因为必须分析数据库中的数据以确定是否满足一个或多个搜索条件。例如在存储图像的数据库中,可以接收查询以标识包含红色汽车的图像。关系数据库不包括在图像中的汽车颜色的字段,因此必须分析图像以确定每个图像中是否有红色汽车。
在某些情况下,机器学习系统用于执行图像分析。但是,经典查询优化技术,包括谓词下推的使用,针对机器学习推理查询具有有限的用途,因为从非结构化数据(例如数据库中的图像)提取关系列的用户定义函数(UDF)通常非常昂贵并且如果这些谓词需要由UDF生成的关系列,则查询谓词可能无法在这些UDF之前(或旁路)执行。
附图说明
附图中的各个附图仅示出了本公开的示例实施例,并且不能被认为是对其范围的限制。
图1示出了根据一些示例实施例的包括使用机器学习分类器的查询的处理。
图2示出了根据一些示例实施例的利用概率谓词(PP)的查询处理。
图3是示出根据一些示例实施例的使用不同机器系统的开销的表格。
图4示出了根据一些示例实施例的利用查询优化器的查询处理。
图5示出了根据一些示例实施例的概率谓词机器学习程序的训练。
图6示出了根据一些示例实施例的利用概率谓词的查询优化器。
图7示出了根据一些示例实施例的示出了针对复杂谓词的概率谓词(PP)组合的各种选择的示例。
图8是示出了对于一些示例实施例的根据降维和分类器技术的不同PP方法的复杂度的表。
图9示出了根据一些示例实施例的使用线性支持向量机或核密度估计器所训练的PP分类器的功能。
图10示出了根据一些示例实施例的对应于不同准确性水平的阈值的生成。
图11示出了根据一些示例实施例的基于全连接神经网络的PP分类器的结构。
图12示出了根据一些示例实施例的针对在两个PP分类器上的或运算的查询计划。
图13示出了根据一些示例实施例的针对在两个PP分类器上的与运算的查询计划。
图14示出了负PP的使用示例。
图15是示出了根据一些示例实施例的用于PP的下推规则的表。
图16示出了用于实现示例实施例的搜索管理器。
图17是根据一些示例实施例的用于利用概率谓词来加速利用机器学习推理的搜索的方法的流程图。
图18是示出了机器的示例的框图,在该机器上或通过该机器,可以实现或控制本文描述的一个或多个示例过程实施例。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980038901.0/2.html,转载请声明来源钻瓜专利网。