[发明专利]增量核密度估计器的生成方法、装置和计算机可读存储介质在审
| 申请号: | 201810875048.5 | 申请日: | 2018-08-03 |
| 公开(公告)号: | CN109063335A | 公开(公告)日: | 2018-12-21 |
| 发明(设计)人: | 何玉林;蒋捷 | 申请(专利权)人: | 深圳大学 |
| 主分类号: | G06F17/50 | 分类号: | G06F17/50 |
| 代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 袁文英 |
| 地址: | 518060 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 核密度估计 数据生成 计算机可读存储介质 更新 获取并存储 宽度参数 数据存储 融合 挖掘 | ||
本发明公开了一种增量核密度估计器的生成方法、装置和计算机可读存储介质,用于挖掘数据,解决了现有技术中生成核密度估计器成本过大的问题,其包括:获取并存储现有数据及新增数据,并将现有数据及新增数据存储至不同位置;根据现有数据生成第一核密度估计器;根据新增数据生成第二核密度估计器;融合第一核密度估计器及第二核密度估计器,以更新第一核密度估计器;生成更新后的第一核密度估计器的窗口宽度参数,以使更新后的第一核密度估计器正常使用;当新增数据加入的时候,只需用第二核密度估计器更新第一核密度估计器即可,无需基于全部数据生成新的第一核密度估计器,从而减少了生成核密度估计器的成本。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种增量核密度估计器的生成方法、装置和计算机可读存储介质。
背景技术
估计未知分布数据的概率密度函数是数据挖掘领域的一项重要研究内容。经典的概率密度函数估计方法是核密度估计方法,又称Parzen窗口法,它利用核函数叠加的平均去拟合数据真实的概率密度函数,从而生成核密度估计器,以此估计未知分布数据的概率密度函数。
但是,现有的生成核密度估计器的方法,是在基于第一组数据而生成一个核密度估计器后,若是有第二组数据加入,则需要将第二组数据并入第一组数据内,从而重新生成第一组数据,并根据重新生成的第一组数据内的所有数据用核密度估计方法生成核密度估计器。若是加入第二组数据的频率过高,则需要不断的生成新的第一组数据及核密度估计器,这样无疑会增加生成核密度估计器的成本。
发明内容
本发明的主要目的在于提供一种增量核密度估计器的生成方法、装置和计算机可读存储介质,旨在解决现有技术中生成核密度估计器成本过高的技术问题。
为实现上述目的,本发明提供一种增量核密度估计器的生成方法,包括:获取并存储现有数据及新增数据,并将所述现有数据及所述新增数据存储至不同位置;根据所述现有数据生成第一核密度估计器;根据所述新增数据生成第二核密度估计器;融合所述第一核密度估计器及所述第二核密度估计器,以更新所述第一核密度估计器;生成更新后的所述第一核密度估计器的窗口宽度参数,以使更新后的所述第一核密度估计器正常使用。
通过采用上述技术方案,当未出现新增数据时,根据现有数据能够生成第一核密度估计器,并生成第一核密度估计器的窗口宽度参数,从而生成可使用的第一核密度估计器;当出现新增数据时,根据新增数据生成第二核密度估计器,随后融合第二核密度估计器及第一核密度估计器,从而更新第一核密度估计器,并生成更新后的第一核密度估计器的窗口宽度参数,从而在生成新的第一核密度估计器时,只需将基于新增数据生成的第二核密度估计器融入第一核密度估计器即可,从而更新第一核密度估计器,而无需基于全部数据重新生成第一核密度估计器,从而减少了生成第一核密度估计器的成本。
进一步地,所述根据所述现有数据生成第一核密度估计器及所述根据所述新增数据生成第二核密度估计器包括:对所述现有数据及新增数据进行概率密度估计;根据所述概率密度估计的结果构建概率密度函数,以生成第一核密度估计器及第二核密度估计器。
进一步地,所述更新所述第一核密度估计器包括:将所述现有数据及所述新增数据的概率密度函数融合,以形成新的概率密度函数;根据所述新的概率密度函数更新所述第一核密度估计器。
进一步地,所述更新所述第一核密度估计器还包括:在更新所述第一核密度估计器后,将所述新增数据转移至所述现有数据的存储位置,并将所述新增数据并入所述现有数据内,以更新现有数据。
进一步地,所述生成更新后的所述第一核密度估计器的窗口宽度参数包括:通过所述现有数据、所述新增数据及无偏交叉验证的方法计算所述窗口宽度参数;根据所述窗口宽度参数计算优化所述窗口宽度参数的准则;根据所述准则优化所述窗口宽度参数。
进一步地,所述生成更新后的所述第一核密度估计器的窗口宽度参数还包括:计算最优所述窗口宽度参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810875048.5/2.html,转载请声明来源钻瓜专利网。





