[发明专利]项目间关联关系挖掘方法、装置、计算设备及存储介质在审
| 申请号: | 201810661422.1 | 申请日: | 2018-06-25 | 
| 公开(公告)号: | CN109062955A | 公开(公告)日: | 2018-12-21 | 
| 发明(设计)人: | 柯文炜;何治民 | 申请(专利权)人: | 广东神马搜索科技有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 屠长存 | 
| 地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 关联度 关联关系 顺序建立 存储介质 计算设备 顺序相反 挖掘 方式记录 非对称性 数据库 记录 应用 | ||
本发明公开了一种项目间关联关系挖掘方法、装置、计算设备及存储介质。建立项目对,以能够区分的方式记录第一项目和第二项目。确定并在关联关系数据库中记录项目对的单向关联度,单向关联度表示第二项目相对于第一项目的关联度,而不表示第一项目相对于第二项目的关联度。在两个项目以第一顺序建立第一项目对的情况下,可以不以与第一顺序相反的第二顺序建立第二项目对。或者,对于两个项目,以第一顺序建立第一项目对,并以与第一顺序相反的第二顺序建立第二项目对,第二项目对的单向关联度不同于第一项目对的单向关联度。由此,能够体现两个项目之间关联关系的非对称性,更加准确地挖掘出更贴近现实的项目间关联关系,以便于后期的应用。
技术领域
本公开涉及互联网数据分析和挖掘,特别涉及项目间关联关系挖掘方案。
背景技术
随着互联网的发展,各大互联网平台都逐渐积累起了各式各样的海量数据,其中包括各种用户触发的网页、搜索/购物行为以及内容提供方制造的各种文本本身。随着数据的累积,数据的价值逐渐凸显,平台的运营成本也逐渐提高,一方面是因为数据量增加带来更大的工作量,另一方面是因为数据内部蕴含着各类复杂的关系。
这样,挖掘数据内部的关联关系成为一件非常有价值和意义的事情。人们一直在努力寻找一种方法和途径,可以将平台的各种数据以一种有序的、规整的方式组织起来,从而避免重复的、过分冗余的、庞杂的组织方式,以此实现集中挖掘价值最大的方面,甚至节约运营成本和时间。
通用的基于项目的(item-based)分布式相似计算算法仅从算法本身的分布式处理能力和通用数据计算进行设计,而并未考虑作为由人触发的数据本身的特殊性以及数据本身中间结果的差异,导致现有技术看似通用性强,实际扩展能力弱,对数据本身关键信息挖掘能力弱。
因此,仍然希望有一种项目间关联关系挖掘方案,以解决上述技术问题,更好地挖掘项目间的关联关系。
发明内容
本公开要解决的一个技术问题是提供一种项目间关联关系挖掘方案,其能够更加准确地挖掘出更贴近现实的项目间关联关系。
根据本公开的第一个方面,提供了一种项目间关联关系挖掘方法,包括:建立项目对,在项目对中,以能够区分的方式记录第一项目和第二项目;以及针对项目对,确定并在关联关系数据库中与项目对关联地记录项目对的单向关联度,单向关联度表示第二项目相对于第一项目的关联度,而不表示第一项目相对于第二项目的关联度,其中,在两个项目以第一顺序建立第一项目对的情况下,不以与第一顺序相反的第二顺序建立第二项目对;或者对于两个项目,以第一顺序建立第一项目对,并以与第一顺序相反的第二顺序建立第二项目对,第二项目对的单向关联度不同于第一项目对的单向关联度。
由此,在建立项目对时,或确定单向关联度时,体现了两个项目之间关联关系的非对称性,更加贴近现实,有助于后期基于该关联关系进行相应应用。
可选地,建立项目对的步骤可以包括:从具有项目间指向关系或时间顺序的项目序列中挖掘项目对,其中第一项目和第二项目在项目序列中具有预定的指向关系或时间顺序。
由此,可以体现两个项目在序列中地位的非对称性。
可选地,确定项目对的单向关联度的步骤可以包括:至少部分地基于第一项目和第二项目在多个项目序列中按项目对对应的顺序出现的频次和/或时间跨度统计值和/或间隔项目数统计值,确定项目对的单向关联度。
由此,不但可以更准确地体现项目之间的关联关系,而且考虑到不同顺序的项目对在序列中的相应统计值一般不同,能够进一步体现项目之间关联关系的非对称性。
可选地,建立项目对的步骤可以包括:以预定项目或预定类型的项目作为第一项目;并且/或者以预定项目或预定类型的项目作为第二项目。
由此,可以对特定项目进行有针对性的分析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东神马搜索科技有限公司,未经广东神马搜索科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810661422.1/2.html,转载请声明来源钻瓜专利网。





