[发明专利]基于不确定性处理的网络论坛用户兴趣建模方法无效
| 申请号: | 200910199384.3 | 申请日: | 2009-11-26 |
| 公开(公告)号: | CN101719137A | 公开(公告)日: | 2010-06-02 |
| 发明(设计)人: | 曾剑平;吴承荣 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
| 地址: | 20043*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 不确 定性处理 网络 论坛 用户 兴趣 建模 方法 | ||
技术领域
本发明属于网络用户行为分析技术领域,具体涉及一种面向网络论坛用户兴趣的建模方法。
背景技术
随着Web2.0在互联网上应用的迅速推广,出现了许多交互性很强的论坛网站。这些网站里聚集了大量的互联网用户,他们在这里发表帖子、回复帖子,对不同话题的帖子表现出不同的兴趣。而对于许多商业应用来说,准确发现用户的兴趣、发现更多的兴趣群体是业务成功开展的首要条件。因此,充分利用这些论坛网站中的用户在发帖或回帖的行为,挖掘用户的兴趣,是商业应用获取用户群体的一种有效途径。
当前,人们对于网络用户兴趣的研究主要集中在用户的搜索行为上,通过用户输入的关键词推测用户的兴趣,模型主要采用基于话题词空间的概率密度函数,使用用户输入的文本作为训练集。也有的模型是基于用户在浏览WEB页面时所点击的页面的相关信息。虽然人们提出了许多方法和数学模型来表达用户的兴趣,提高用户兴趣计算的准确性,但是在针对网络论坛这种用户大量聚集、以发帖或回帖为主要行为的网络应用来说,运用这些模型来建立网络论坛用户兴趣时存在以下问题:
1.用户兴趣单纯以概率方式描述,只能说明用户对某个话题兴趣的随机性,而不能说明这种兴趣的模糊性,而模糊性是人们分析理解用户兴趣的一个重要方面。
2.网络论坛用户发帖或回帖在次数、长度等特征上都有很大区别,这在一定程度上反映了用户兴趣的差异,而现有模型只对用户的相关文本或点击行为进行表达,必然丢失这些反映用户兴趣的重要特征。
由此可见,提高用户兴趣的随机性和模糊性描述能力对于更合理地描述用户兴趣是非常重要的,充分利用论坛上的用户行为特征对于准确表达用户兴趣是很关键的,而现有方法在这两方面尚无法满足用户兴趣建模分析的要求。
发明内容
本发明的目的主要是针对现有用户兴趣模型在表达网络论坛用户兴趣方面的不足,提出一种基于不确定性处理的网络论坛用户兴趣建模方法。
本发明在建模过程中引入隶属函数来表达用户的兴趣,采用类似的高斯型隶属函数,基于用户在论坛中的行为特征计算函数的参数;采用文本处理方法提取用户兴趣文本,并按照不同权重配置计算用户的兴趣文本向量;将用户兴趣模型建立在由文本向量与隶属函数论域所构成的高维空间中,采用概率密度函数描述用户在不同话题空间的兴趣分布。
本发明的方法的具体步骤如下:
1.使用Web爬虫技术[1]从网络论坛获取用户发帖的原始数据文件,并运用WEB信息提取技术[2]将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集;每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志;
2.从用户帖子记录集中选择指定用户的所有帖子,如果是属于回帖类型,则同时找出原始帖子;对其中的每个原始帖子及相应的用户回帖,构成临时帖子集;提取原始帖子、标题的内容,并运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括人名、地名、机构名;得到原始帖子对应的词语向量和标题对应的词语向量;
对帖子集执行以下步骤3-5,处理用户兴趣的初步标注:
3.计算该用户在这个帖子集中出现的次数,计算用户在帖子集中的回帖的平均长度;
4.根据用户发帖标志、回帖次数及回帖长度,为用户设定一个兴趣的隶属函数及参数,该隶属函数的论域是用户的兴趣等级;
5.提取用户回帖的内容,运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括含人名、地名、机构名,得到用户回帖对应的词语向量;结合第二步中的分词结果,按照不同权重构造用户的兴趣文本向量;
6.当整个帖子记录集处理完毕后,得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数,它对应于由文本向量和兴趣论域构成的多维空间中的点,对这些点使用EM算法建立论坛用户兴趣模型,它是一种混合高斯概率模型。
其流程见图1所示。
本发明具有实质性特点和显著进步:(1)提出了一种基于隶属函数的用户兴趣表示方法,隶属函数的论域是用户兴趣等级,可以采用普通的隶属函数形式,如类似高斯型隶属函数。这种方法使得用户兴趣的表示更加接近用户要求,更加合理。(2)利用网络论坛中的用户发帖或回帖的行为特征,计算用户兴趣的隶属函数参数,使得兴趣的计算更加准确。(3)将用户兴趣模型建立在兴趣文本向量和用户兴趣等级所构成的空间中,并基于混合概率表示方法,建立用户兴趣模型。使得模型既能反映用户兴趣的模糊性,又能体现用户兴趣的随机性。而不象现有方法仅仅表达随机性的一方面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910199384.3/2.html,转载请声明来源钻瓜专利网。





