[发明专利]基于不确定性处理的网络论坛用户兴趣建模方法无效
| 申请号: | 200910199384.3 | 申请日: | 2009-11-26 |
| 公开(公告)号: | CN101719137A | 公开(公告)日: | 2010-06-02 |
| 发明(设计)人: | 曾剑平;吴承荣 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;盛志范 |
| 地址: | 20043*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 不确 定性处理 网络 论坛 用户 兴趣 建模 方法 | ||
1.基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于具体步骤如下:
1)使用Web爬虫技术从网络论坛获取用户发帖的原始数据文件,并运用WEB信息提取技术将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集;每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志;
2)从用户帖子记录集中选择指定用户的所有帖子,如果是属于回帖类型,则同时找出原始帖子;对其中的每个原始帖子及相应的用户回帖,构成临时帖子集;提取原始帖子、标题的内容,并运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括人名、地名、机构名;得到原始帖子对应的词语向量和标题对应的词语向量;
对帖子集执行以下步骤3-5,处理用户兴趣的初步标注:
3)计算该用户在这个帖子集中出现的次数,计算用户在帖子集中的回帖的平均长度;
4)根据用户发帖标志、回帖次数及回帖长度,为用户设定一个兴趣的隶属函数及参数,该隶属函数的论域是用户的兴趣等级;
5)提取用户回帖的内容,运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括含人名、地名、机构名,得到用户回帖对应的词语向量;结合第二步中的分词结果,按照不同权重构造用户的兴趣文本向量;
6)当整个帖子记录集处理完毕后,得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数,它对应于由文本向量和兴趣论域构成的多维空间中的点,对这些点使用EM算法建立论坛用户兴趣模型,它是一种混合高斯概率模型。
2.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于,从用户帖子记录集中选择原始帖子,以及这个帖子下的所有回帖记录,构成一个临时帖子集,这个临时帖子集反映了指定的用户的发贴或回帖行为。
3.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:记原始帖子对应词语向量V1=(tf1,tf2,...,tfn),标题对应词语向量V2=(tf1,tf2,...,tfm),用户回帖对应的词语向量V3=(tf1,tf2,...,tfk),这里tfi表示第i个词在文本中出现的次数,n、m、k分别为向量V1、V2、V3的长度,所述构造用户的兴趣文本向量V如下:
V==(tf1,tf2,...,tfl),
其中,i=1,2,...,l,l=max(m,n,k),系数β1、β2、β3反映了对不同部分的权重,满足:β1+β2+β3=1;分别为V1、V2、V3中的第i个分量。
4.如权利要求1中所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:所述为用户设定兴趣隶属函数,其形式如下:
其中,d表示用户兴趣等级,分为11个等级,取值0、1、2、3、...、10,μ,σ分别反映了用户兴趣程度及模糊程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910199384.3/1.html,转载请声明来源钻瓜专利网。





