[发明专利]提取具有意义的频出项目集的系统、方法以及程序有效
申请号: | 201110216914.8 | 申请日: | 2011-07-29 |
公开(公告)号: | CN102456068A | 公开(公告)日: | 2012-05-16 |
发明(设计)人: | 吉田一星 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 具有 意义 项目 系统 方法 以及 程序 | ||
技术领域
本发明涉及从存储分别包含具有一个或多个项目的项目集的多个记录的数据库提取具有意义的频出项目集,尤其涉及通过适当次数的频度计算且适当的存储器的使用量高效地提取这样的项目集的技术。
背景技术
以往,研究了从大量存储的数据中提取有用的指示的数据挖掘。其中,检测成为对象的多个记录(例如已发布的收据的履历)中频繁出现的项目(例如商品)组的技术称为频出模式挖掘,提出了多种方法。在频出模式挖掘中,将满足“项目集的频度≥预定阈值(称为“最小支持”)”的项目集定义为频出项目集,提取频出项目集的集合。
但是,虽然项目集的出现频度高,但项目间不一定具有较深的关系。例如,在包含出现频度高的项目的项目集的情况下,项目间没有关系但其项目集频出的可能性高。在项目间具有较深关系的情况下,该频出项目集是没有意义的项目集。此外,最小支持的值由用户赋予,但一般而言,已知对实用的最小支持的值生成大量数量的频出项目集。
于是,存在如下现有技术:导入闭频出集合的概念进行定义,提取满足该定义的闭频出项目集(参照非专利文献1)。在此,所谓项目集Y闭频出,是指满足“Y频出且对任意的Y≠Y′,Y的频度Y>Y′的频度”。此外,也存在如下现有技术:扩大闭频出集合的上述定义,提取满足“Y频出且对任意的Y≠Y′,(Y的频度×δ)>Y′的频度”的项目集(参照非专利文献2)。
如果提取闭频出的项目,则与项目集整体具有相同出现频度的项目集的部分集合不会作为频出项目集无用地提取。例如,假设在超市POS数据中出现500次项目集Y1={齿粉、面包},项目Y2={齿粉、面包、啤酒}也出现了500次。在此情况下,作为闭频出的项目集提取的仅是项目集Y 2。但是,对于闭频出的项目集,虽然项目间具有很深的关系,但即使具有闭频出的概念,也无法提取具有意义的频出项目集。
于是,需要提取在项目间具有较深关系的项目集的技术。作为这样的现有技术,存在非专利文献3和非专利文献4。非专利文献3和非专利文献4通过基于相互信息量、平均信息量的方法,尝试在三个以上的项目之间提取具有关联的项目集。
但是,提出非专利文献3和非专利文献4的方法以成对比较为基础。因此,对于通过这些手法提取的项目集可以保证的仅仅是在项目集内的任意两个项目之间具有较深关联。
例如,假设对呼叫中心的通话记录适用上述手法,提取了项目集{操作系统A、浏览器B、异常结束}。在此情况下,对{操作系统A、浏览器B}、{浏览器B、异常结束}、{操作系统A、异常结束}各自保证较高的相关性。但是,不保证“不是其他操作系统而在操作系统A上、不是其他应用程序而是使用浏览器B发生了异常结束”。如下所示的专利文献1作为公开相关的规则提取手法的背景技术列举。
专利文献1:日本特开平8-287106号公报
非专利文献1:M.Boley et al.,“EfficientDiscovery of Interesting Patterns Based on Strong Closedness”,Statistical Analysis and Data Mining,Volume 2,Issue 5&ash;6,Pages 346-360,December 2009
非专利文献2:J.Cheng et al.,“Sigma-tolerance closed frequent itemsets”,ICDM,Proceedings of the Sixth InternationalConference on Data Mining,pages 139–;148,2006
非专利文献3:Y.Ke et al.,“Mining q uantitativecorrelated patterns using an information-theoretic approach”,Proceedings ofthe 12th ACM SIGKDD international conference on knowledge discoveryand data mining,pages 227–;236,August 2006
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110216914.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在现有静止图像内可视化视频
- 下一篇:红外感应医疗专用智能无接触污物车