[发明专利]一种基于概念聚类的用户兴趣建模方法无效
| 申请号: | 200910086071.7 | 申请日: | 2009-06-09 |
| 公开(公告)号: | CN101571870A | 公开(公告)日: | 2009-11-04 |
| 发明(设计)人: | 刘永利;欧阳元新;张平安;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京慧泉知识产权代理有限公司 | 代理人: | 王顺荣;唐爱华 |
| 地址: | 100191北京市海淀区学院路*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 概念 用户 兴趣 建模 方法 | ||
1.一种基于概念聚类的用户兴趣建模方法,通过对用户浏览过的Web文档进行概念聚类,形成不同粒度的概念簇,根据簇之间的包含关系,创建层次概念树,其特征在于:该方法包括四个步骤:文档预处理、建立后缀树并识别基本簇、创建改进的基本簇图和创建用户兴趣层次;
在文档预处理步骤中,使用三种文本预处理方法,即词干提取、停用词过滤和文本分割,UIM2C2以用户在每个查询会话中选择的文档作为潜在的反馈内容;
在建立后缀树并识别基本簇步骤中,首先根据文档内容建立后缀树,根据建立的后缀树,得到基本簇的信息;
在创建改进的基本簇图步骤中,根据基本簇信息,按照STC算法生成基本簇图,基本簇图表示了基本簇之间的相似关系,该相似关系的度量基于公式
在创建用户兴趣层次步骤中,改进的基本簇图中节点间连接线上的权重表示两个节点之间的相似度:指定较小的阈值时,聚类结果中包含的簇数目较少,而每个簇包含的数据对象相对较多;指定较大的阈值时,聚类结果中包含的簇数目较多,而每个簇包含的数据对象相对较少。
2.如权利要求1中所述的基于概念聚类的用户兴趣建模方法,其特征在于:在所述的创建用户兴趣层次步骤中,使用Valley方法选择阈值δ,用迭代法得到阈值δ的取值列表,按从小到大的顺序表示为:δ1,δ2,...,δn(δ1<δ2<...<δn);当阈值取值为δ1时,聚类结果中簇数目较少,而每个簇中元素较多,对应于兴趣层次中靠近根节点、较概括的概念;当阈值取值为δn时,聚类结果中簇数目较多,而每个簇中元素较少,对应于兴趣层次中靠近叶节点、较具体的概念。
3.如权利要求2中所述的阈值选择方法,其特征在于:若通过Valley方法得到的阈值较多,则对应兴趣模型中的兴趣层次也相应增多;合并的基本簇作为子概念添加到用户兴趣层次中。
4.如权利要求1所述的基于概念聚类的用户兴趣建模方法,其特征在于:所述的聚类结果中包含的每一个簇对应用户的一个兴趣点,称为用户的一个兴趣概念;兴趣概念由一列基本簇短语及其在后缀树中的权重组成,即ci={(b1,w1),(b2,w2),...(bm,wm)},权重用基本簇的分值表示,即s(B)=|B|·f(|P|),其中,B表示一个基本簇,s(B)表示该基本簇的评分,|B|表示基本簇B对应文档的个数,|P|表示短语P中特征词的个数,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910086071.7/1.html,转载请声明来源钻瓜专利网。





