[发明专利]建模数据生成过程有效
申请号: | 201380052626.0 | 申请日: | 2013-09-18 |
公开(公告)号: | CN104704514B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | A·D·高登;T·格雷佩;A·诺日;S·拉贾马尼;J·伯格斯特姆 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N7/00 | 分类号: | G06N7/00 |
代理公司: | 上海专利商标事务所有限公司31100 | 代理人: | 杨洁 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建模 数据 生成 过程 | ||
技术领域
本申请涉及建模数据生成。
背景技术
概率编程语言系统提供机器学习算法的自动生成。用户可写通常嵌入在更大的常规程序中的短的概率程序,并且系统可产生用于学习由概率程序给予的分布的算法。因此,概率编程与手动写推断算法的替换方案相比节约了开发成本。此外,概率编程比依赖于特定任务的固定算法的替换方案更灵活,因为具有略微不同结构的模型变体可被容易地写。
然而,概率编程的当前实践是低级别的、不规则的,且非结构化的。概率程序可表示贝叶斯模型,但是它们通常缺乏用于定义参数、预测输出和观察数据的结构。这样的结构的缺失阻止了用于执行标准任务(诸如训练、参数学习,和预测)的代码的重用。此外,缺乏用于构建混合模型、执行模型选择或实现其它重复的概率模式的结构。因此,可能希望以包括已定义结构的通用格式写贝叶斯模型。
发明内容
下面呈现了本发明的简化概述,以便提供此处所描述的某些方面的基本概念。此概述不是所要求保护的主题的详尽的概述。既不是要标识所要求保护的主题的要点或关键性元素,也不是要详细描述本发明的范围。唯一的目的是以简化形式呈现所要求保护的主题的某些概念,作为稍后呈现的比较详细的描述的前奏。
一实施例提供了一种用于建模数据生成过程的方法。该方法包括生成包括表示先验分布和采样分布的一对概率函数的二元贝叶斯模型,以及基于该二元贝叶斯模型使用观察到的数据来建模数据生成过程。
另一实施例提供了一种用于建模数据生成过程的系统。该系统包括适于执行所存储的指令的处理器和系统存储器。该系统存储器包括被配置成生成包括表示先验分布和采样分布的一对概率函数、采样器对象和学习器对象的二元贝叶斯模型的代码。该系统存储器还包括被配置成用于基于观察到的数据用学习器对象训练二元贝叶斯模型以产生经训练的二元贝叶斯模型的代码。该系统存储器还包括被配置成用于基于经训练的二元贝叶斯模型生成诸参数之上的后验分布、基于该后验分布生成后验预测分布,并使用后验预测分布来预测可观察的变量的分布的代码。
此外,另一个实施例提供包括指令的一个或多个计算机可读存储介质,当指令被处理器执行时致使该处理器生成包括一对概率函数的二元贝叶斯模型,概率函数表示来自一个或多个先前使用模型组合符生成的二元贝叶斯模型的先验分布和采样分布。指令还使得该处理器根据该二元贝叶斯模型通过变换数据来建模数据生成过程。
下面的描述和附图详细地阐述了所要求保护的主题的某些说明性方面。然而,这些方面只是表示可以使用本发明的原理的各种方式中的一些方式,并且所要求保护的主题旨在包括所有这些方面和等效内容。通过与附图一起阅读下面的本发明的详细描述,所要求保护的主题的其他优点和新颖的特点将变得显而易见。
附图说明
图1是用于建模数据生成过程的系统和方法可以在其中实现的联网环境的框图;
图2是可以被用来实现用于建模数据生成过程的系统和方法的计算环境的框图;
图3是用于建模数据生成过程的方法的过程流程图;以及
图4是用于建模数据生成过程的系统的框图。
具体实施方式
概述
贝叶斯模型包括一对概率分布,被称为先验分布和采样分布。对于通用贝叶斯模型,项y可表示模型的输出,它可以是要被预测或观察的对象,而项x可以表示模型以其为条件的任何输入信息,诸如分类或回归中的特征向量。项w可表示模型的参数,而项h可表示模型的超参数。
贝叶斯模型可包括两个条件概率分布。具体而言,贝叶斯模型可包括参数上的先验分布即p(w|h),和输出上的采样分布即p(y|x,w)。给定一组练习数据d=(x,y),贝叶斯的规则表达可被获取,用于计算后验分布p(w|d,h)和后验预测分布p(y’|x’,d,h),假设(x’,y’)独立于(x,y)并且和(x,y)一样分布。这个贝叶斯模型表示各种各样的机器学习任务。还有许多用于概率推断的机器学习算法,即用于近似计算后验分布p(w|d,h)并用于使用后验预测分布p(y’|x’,d,h)来进行预测。
在此描述的各实施例涉及新的概率编程抽象,称为“二元贝叶斯模型”,它是用于先验分布和采样分布的一对概率函数。模型的采样器对象,即采样器,是用于从模型计算综合数据的算法,而模型的学习器对象,即学习器,是用于模型上的概率推断的算法。模型、采样器和学习器支持常见任务的统一表达,诸如模型测试、混合模型创建,和基于证据的模型选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380052626.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于访问对象的面部的数据的系统
- 下一篇:用于结构的虚拟装配的方法和系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置