[发明专利]基于基尼系数测度的用户兴趣模式划分方法有效
申请号: | 201210133502.2 | 申请日: | 2012-04-28 |
公开(公告)号: | CN102693335A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 胡铮;张平;花青松;刘海峰;田辉;白海 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 系数 测度 用户 兴趣 模式 划分 方法 | ||
技术领域
本发明涉及计算机建模技术领域,特别涉及一种基于基尼系数测度的用户兴趣模式划分方法。
背景技术
用户兴趣模式是多种多样的,有些用户属于兴趣广泛型,其对各领域的喜欢程度得分布相对比较均匀;有些用户则是专一喜欢极少类别的事物,其对各领域喜欢程度的分布相对并不均匀。很多时候,即便不同用户喜欢的事物不同,却拥有相同的兴趣模式,比如一个用户是音乐发烧友只喜欢音乐,另一个用户是军事发烧友只喜欢军事,尽管音乐和军事所属领域大不相同,但是这两个用户都是单兴趣类型用户,他们拥有相同兴趣模式。而目前有关用户兴趣的研究缺乏对用户兴趣模式的度量方法。因此有必要找到一种测度用户兴趣模式的方法。
经济学中基尼系数对于研究用户兴趣模式分类有很大的借鉴意义。基尼系数是经济学中国际上通用的评估社会贫富差异的一种度量方法,度量的是社会总收入在全体人口中的分布情况,这与用户兴趣模式的研究度量用户兴趣在各领域间相对分布的问题有很大相似之处。
为了研究社会财富分配不平等问题,1905年美国统计学家M.O.洛伦茨(Max Otto Lorenz)提出了著名的洛伦茨曲线(lurenz curve)。经济学中的洛伦茨曲线(图1中实心线)是一种财富分布累计函数的图形化表示方法。
对于图1中洛伦茨曲线上任一点(x%,y%),它的含义是贫到富排列前x%的人口的累计总收入占社会总收入的比例是y%。图中“绝对公平线”(curve of absolute equality)表示社会总收入在全体居民中绝对平均分配时的收入分配曲线,是一条“y=x”的直线;“绝对不公平线”(Curve of absolute inequality)是社会所有收入被一个人唯一占据时的收入分配曲线,是一条垂直于x轴的直线。洛伦茨曲线一般位于绝对公平线与绝对不公平线之间。
1912年,意大利经济学家基尼根据洛伦茨曲线,提出了基尼系数(Gini coefficient)。基尼系数作为测度一个变量分布集中度(不平均性质)的指标,现代经济学中常用其来度量贫富差距。如图1所示,设洛伦茨曲线和绝对公平线之间的面积为A,洛伦茨曲线与绝对不公平线和x轴围成的图形面积为B。并以A除以A+B的商表示不平等程度即为基尼系数。用以下公式(1)表示为:
这个数值被称为基尼系数或称洛伦茨系数,大小位于0到1之间。洛伦茨曲线与绝对公平线之间的面积A越小,收入分配越是趋向平等,洛伦茨曲线的弧度也就越小,基尼系数也越小;反之,收入分配越是趋向不平等,洛伦茨曲线的弧度越大,那么基尼系数也越大。
基尼系数在度量贫富差距时,其本质假设是社会的总收入是同质的,度量其在全体人口的分布情况。
现有技术集中在依据用户兴趣相似度研究用户偏好。缺乏从用户兴趣模式角度研究用户兴趣,无法准确地对用户兴趣模式进行划分。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何准确地对用户兴趣模式进行划分。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于基尼系数测度用户兴趣划分方法,包括以下步骤:
S1:基于向量空间模型VSM架构用户兴趣模型,用户兴趣领域集合为T={兴趣1,兴趣2,...,兴趣N},对于任何一个用户,其用户兴趣模型可以表示为U={<兴趣1,兴趣度1>,...,<兴趣N,兴趣度N>};
S2:对用户兴趣模型按照用户兴趣度升序进行排序,得到排序后的用户兴趣度为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210133502.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:三芯光纤复合海底电缆
- 下一篇:三元复合驱油用组合物及其在三次采油中的应用