[发明专利]一种基于概念聚类的用户兴趣建模方法无效

专利信息
申请号: 200910086071.7 申请日: 2009-06-09
公开(公告)号: CN101571870A 公开(公告)日: 2009-11-04
发明(设计)人: 刘永利;欧阳元新;张平安;熊璋 申请(专利权)人: 北京航空航天大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京慧泉知识产权代理有限公司 代理人: 王顺荣;唐爱华
地址: 100191北京市海淀区学院路*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 针对传统的用户兴趣建模方法在准确率和增量处理能力方面的不足,本发明提出了一种新的基于概念聚类的用户兴趣建模方法UIM2C2(User Interest Modeling Method based onConceptual Clustering)。该方法首先通过分析用户访问的历史文档构造后缀树结构,然后选择不同的相似度阈值,以不同的粒度合并基本簇。依据不同阈值条件下合并的基本簇之间的包含关系,生成用户的兴趣层次。UIM2C2方法是针对文档的一个增量式、无监督的概念学习方法,因此用户描述文件可以轻易地获取和更新。最后,通过数据集20NewsGroup上的实验验证了UIM2C2方法在兴趣预测方面的有效性。
搜索关键词: 一种 基于 概念 用户 兴趣 建模 方法
【主权项】:
1.一种基于概念聚类的用户兴趣建模方法,通过对用户浏览过的Web文档进行概念聚类,形成不同粒度的概念簇,根据簇之间的包含关系,创建层次概念树,其特征在于:该方法包括四个步骤:文档预处理、建立后缀树并识别基本簇、创建改进的基本簇图和创建用户兴趣层次;在文档预处理步骤中,使用三种文本预处理方法,即词干提取、停用词过滤和文本分割,UIM2C2以用户在每个查询会话中选择的文档作为潜在的反馈内容;在建立后缀树并识别基本簇步骤中,首先根据文档内容建立后缀树,根据建立的后缀树,得到基本簇的信息;在创建改进的基本簇图步骤中,根据基本簇信息,按照STC算法生成基本簇图,基本簇图表示了基本簇之间的相似关系,该相似关系的度量基于公式簇对应的文档个数,|Bm∩Bn|表示同时对应这两个基本簇的文档个数,参数δ为阈值;在创建用户兴趣层次步骤中,改进的基本簇图中节点间连接线上的权重表示两个节点之间的相似度:指定较小的阈值时,聚类结果中包含的簇数目较少,而每个簇包含的数据对象相对较多;指定较大的阈值时,聚类结果中包含的簇数目较多,而每个簇包含的数据对象相对较少。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910086071.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top