[发明专利]零膨胀泊松分布参数的一种稳健估计方法有效
申请号: | 201110223254.6 | 申请日: | 2011-08-05 |
公开(公告)号: | CN102243695A | 公开(公告)日: | 2011-11-16 |
发明(设计)人: | 杨军;李大宇;赵宇 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100191 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 膨胀 分布 参数 一种 稳健 估计 方法 | ||
技术领域
本发明对零膨胀泊松模型(ZIP)参数提供一种的稳健估计方法,适用于生产制造、质量控制、疾病监控以及社会科学等相关领域。
背景技术
带有大量“零”值的计数型数据广泛存在于诸多领域,如工业生产、质量控制、服务业、疾病监控、物种研究等。在稳定的生产过程中,由于工序能力良好,致使观测的缺陷数大部分情况下都为“零”,此时观测数据表现为零膨胀数据;在职业健康领域,评价工作环境风险指数时所用到的工伤数据也经常是零膨胀数据,因为生产技术和保障条件的提高,大部分情况下工人不会受伤,这样,工人受伤的次数经常是“零”;在医学领域,哮喘是一种临床常见的疾病,对受试者来说,可能是健康人,也有可能是哮喘患者,如果在一个试验期内没有哮喘病发作,则用“零”记录,如果发作k次,用k作记录,得到观测的数据也是零膨胀数据。
对于零膨胀数据,当“零”值的比例超过正常泊松分布时,一般用零膨胀泊松模型对计数型数据进行建模。正是由于过多“零”值的存在,对于零膨胀泊松模型而言,分布参数的稳健估计尤其重要。通常情况下用均值对其参数λ进行估计,但均值很容易受到异常值(也称离群值)的影响,因此,需要寻求分布参数的稳健估计,有效避免异常值的影响。一般用中位数等L统计量进行参数估计,然而零膨胀数据中“零”值的比例过大,使得中位数、加宽中位数、中均值、三均值等L统计量经常等于零,因此,无法直接利用它们进行稳健参数估计。
为此,本发明给出了零膨胀泊松模型(ZIP)分布参数的一种稳健估计方法。
发明内容
(1)本发明的目的:针对零膨胀泊松分布容易受到异常值影响的问题,提出一种分布参数稳健估计方法。该发明首先把零膨胀泊松分布看作退化分布{X=0}和非零泊松分布的一种混合分布;然后,利用中位数、加宽中位数、中均值、三均值等L统计量对非零泊松分布的均值进行稳健估计,从而得到零膨胀泊松分布参数的稳健估计。
(2)技术方案:
零膨胀泊松分布是一种广义的泊松分布(GZIP),其概率密度函数通常定义为
由于均值容易受到异常值的影响,所以用均值对零膨胀泊松分布参数进行估计鲁棒性差、不稳健。同时,零膨胀数据中过多“零”值的存在,致使中位数和四分位数经常为零,从而无法应用中位数、加宽中位数、中均值和三均值等进行参数估计。为此,必须从一个新的角度来看待零膨胀泊松分布和寻找稳健参数估计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110223254.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用