[发明专利]一种购买词聚类方法和装置有效
| 申请号: | 201110430301.4 | 申请日: | 2011-12-20 |
| 公开(公告)号: | CN103176975A | 公开(公告)日: | 2013-06-26 |
| 发明(设计)人: | 杨俊丽;王迪;赫南 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张玉波;宋志强 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 购买 词聚类 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种购买词聚类方法和装置。
背景技术
文本聚类技术,是根据文本之间的关联关系,将一组文本划分成若干个子集的技术,子集内的文本之间距离很近,子集之间的距离相差比较大,其实质是寻找隐藏在数据中的不同的数据模型,能够实现样本空问的盲分类。
所谓购买词,是指竞价广告等系统中用户提交的用于竞价的文本内容。购买词是一种较短的文本,平均长度在3-5个词,在某种程度上可以看作是短文本,因此,购买词聚类可以抽象为对一个短文本的集合进行聚类的过程。
现有的文本聚类方法主要是基于VSM的方法,通过把文本映射到向量空间中的一个点,通过计算点与点之间的距离实现对文本进行聚类。而这种常见的聚类方法,对短文本的情形并不是十分奏效,因为短文本存在稀疏性问题:文本长度短,包含的字少,存在一词多义以及一义多词(即一个意思可以用不同的词来表达)的现象。
现有技术中,针对短文本的稀疏性问题,常见的解决方法是对原始文本进行扩充,丰富文本的外在表现形式,从而实现对短文本的聚类。
例如,通过引入重构长文本的思想解决短文本的稀疏性问题;再例如,首先利用FP-Growth算法挖掘训练集特征项与测试集特征项之间的共现关系,然后用得到的关联规则对短文本测试文档中的概念词语进行特征扩展。
可见,现有的短文本聚类方法,都是根据短文本本身包含的词,对短文本的外在表现形式和特征进行扩展,从而克服短文本的稀疏性问题,提高短文本聚类的准确性。
然而,现有这些短文本聚类方法,对聚类准确性的提高仍然有限。
发明内容
有鉴于此,本发明提供了一种购买词聚类方法和装置,能提高购买词聚类的准确性。
本发明的技术方案具体是这样实现的:
一种购买词聚类方法,该方法包括:
根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,,
其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定;
根据各个购买词的广告主向量,对购买词进行聚类。
一种购买词聚类装置,该装置包括广告主向量建立模块和聚类模块;
所述广告主向量建立模块,用于根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,,其中,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定;
所述聚类模块,用于根据各个购买词的广告主向量,对购买词进行聚类。
由上述技术方案可见,本发明通过为购买词建立广告主向量,根据各个购买词的广告主向量,对购买词进行聚类,由于当两个购买词被相同的一个或多个广告主购买时,这两个购买词之间一般存在一定的关联关系,因此,通过比较各个购买词的广告主向量,可以实现对购买词的聚类。
附图说明
图1是本发明提供的购买词聚类方法流程图。
图2是本发明提供的购买词聚类方法第一详细流程图。
图3是本发明提供的购买词聚类方法第二详细流程图。
图4是本发明提供的购买词聚类装置结构图。
具体实施方式
图1是本发明提供的购买词聚类方法流程图。
如图1所示,该方法包括:
步骤101,对于一购买词,根据广告主是否购买了该购买词、以及购买该购买词的次数,为该购买词建立广告主向量。
其中,根据每个广告主购买的购买词、以及购买每个购买词的次数,为每个购买词建立广告主向量,所述广告主向量中的每个广告主特征均购买了所述购买词,每个广告主特征在所述广告主向量中的权重根据所述次数确定。
步骤102,根据各个购买词的广告主向量,对购买词进行聚类。
如果两个购买词被相同的一个或者多个广告主购买,这样这两个购买词之间就潜在的存在一种关联,这种关联可以称为被购买关系。
本发明能根据广告库购买词之间的被购买关系,挖掘出来购买词之间的潜在关联,当用普通的字面意义的方法得不到购买词之间的关系的时候,本方法能明显奏效。本发明适用于购买信息比较充分的系统中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110430301.4/2.html,转载请声明来源钻瓜专利网。





