[发明专利]用户跨网站购物模式信息的抽取系统和方法无效
申请号: | 201010179025.4 | 申请日: | 2010-05-20 |
公开(公告)号: | CN101853282A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 刘红岩;蔡元珏;杨颖慧 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 北京金恒联合知识产权代理事务所 11324 | 代理人: | 李强 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 网站 购物 模式 信息 抽取 系统 方法 | ||
技术领域
本发明涉及计算机数据库和数据挖掘领域,特别是涉及用户跨网站购物模式信息的抽取系统和方法。
背景技术
在当今信息时代,互联网已经成为大众获取所需的一种重要手段。大量用户每天通过互联网查询自己所需信息,购买自己所需商品。但是互联网上存在的大量网站,往往只能收集到用户在自己网站上的浏览和购买行为,对于用户在整个网络上的行为并不能很好的分析,而有时用户在自己网站购买商品与在其他的网站上购买的商品存在某种关联和模式。如果可以找到这种跨网站的购买模式,跳出单个网站的局限,将不仅会对各个网站的经营提供有用的信息,还能作为分析消费者行为的有力手段。
用现在已有的技术手段来进行跨网站购物模式的分析,存在两个问题:
1.现有的方法中已经存在比较成熟的模式分析的方法,但是并没有一种进行跨网站购物模式分析的方法,所以说这是一个新的领域;
2.互联网的性质决定了进行跨网站购物模式分析的时候需要处理海量的数据,我们需要寻找一种高效率的方法。
发明内容
为了解决上述所说的问题,本发明的一个目的就是提出了一种抽取用户跨网站购物模式高效的系统和方法。
根据本发明的一个方面,提供了一种用户跨网站购物模式信息的抽取方法,其特征在于包括:
A.输入记录着用户在线浏览和购买行为的数据;
B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;
C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;
D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。
根据本发明的另一个方面,提供了用户跨网站购物行为信息抽取系统,其特征在于包括:
输入模块,用于输入互联网上用户的浏览和购买行为的数据,
数据预处理模块,用于为一个模式发现模块准备好可用的数据形式,
所述模式发现模块,用于进行跨网站购物模式发现。
附图说明
图1显示了根据本发明的一个实施例的抽取用户跨网站购物模式的系统体系结构图。
图2显示了根据本发明的一个实施例的数据预处理模块的主要流程。
图3给出了模式发现模块的流程图。
具体实施方式
下面结合附图对本发明做出详细说明。
根据本发明的一个实施例的用户跨网站购物模式信息的抽取方法包括:
A.输入记录着用户在线浏览和购买行为的数据;
B.找出用户频繁购买的商品类别或类别组合,每个这样的类别或类别组合都称为一个项;
C.遍历已有的数据,寻找用户在不同网站上购买的频繁的项集;
D.将寻找到的项集还原成商品类别或类别组合,并作为结果输出。
根据本发明的一个实施例,在上述步骤A中从外部数据库中输入记录用户在线浏览和购买行为的数据。
根据一个具体实施例,上述步骤B进一步包括:
B 1.将每个用户所购买的所有商品及购买商品所在的网站组合到一起,成为一个数据库,记为d1;
B2.对购买的每一种商品类别或类别组合进行计数,当一个用户在同一个网站上购买了某种商品类别或类别组合,该类别或类别组合的计数加1;
B3.当某种商品类别或类别组合出现的频率(或称为支持度sup)大于某一被称为“最小支持度”(minisup)的阈值时,则认为该商品类别或类别组合是频繁的;
B4.对每一个频繁的商品类别或类别组合,都用一个新的项来代替,称为频繁项;
B5.将d1中所有频繁的商品类别或类别组合用项来替换,并删除不频繁的类别或类别组合,成为新的数据库d2。
其中步骤B3中计算商品类别或类别组合的支持度的公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010179025.4/2.html,转载请声明来源钻瓜专利网。