[发明专利]基于不确定性处理的网络论坛用户兴趣建模方法无效

申请号：	200910199384.3	申请日：	2009-11-26
公开（公告）号：	CN101719137A	公开（公告）日：	2010-06-02
发明（设计）人：	曾剑平;吴承荣	申请（专利权）人：	复旦大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q30/00
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;盛志范
地址：	20043***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于不确定性处理网络论坛用户兴趣建模方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于具体步骤如下：

1)使用Web爬虫技术从网络论坛获取用户发帖的原始数据文件，并运用WEB信息提取技术将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集；每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志；

2)从用户帖子记录集中选择指定用户的所有帖子，如果是属于回帖类型，则同时找出原始帖子；对其中的每个原始帖子及相应的用户回帖，构成临时帖子集；提取原始帖子、标题的内容，并运用现有的分词及词性标注方法对文本进行处理，保留其中的名词，这些名词包括人名、地名、机构名；得到原始帖子对应的词语向量和标题对应的词语向量；

对帖子集执行以下步骤3-5，处理用户兴趣的初步标注：

3)计算该用户在这个帖子集中出现的次数，计算用户在帖子集中的回帖的平均长度；

4)根据用户发帖标志、回帖次数及回帖长度，为用户设定一个兴趣的隶属函数及参数，该隶属函数的论域是用户的兴趣等级；

5)提取用户回帖的内容，运用现有的分词及词性标注方法对文本进行处理，保留其中的名词，这些名词包括含人名、地名、机构名，得到用户回帖对应的词语向量；结合第二步中的分词结果，按照不同权重构造用户的兴趣文本向量；

6)当整个帖子记录集处理完毕后，得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数，它对应于由文本向量和兴趣论域构成的多维空间中的点，对这些点使用EM算法建立论坛用户兴趣模型，它是一种混合高斯概率模型。

2.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于，从用户帖子记录集中选择原始帖子，以及这个帖子下的所有回帖记录，构成一个临时帖子集，这个临时帖子集反映了指定的用户的发贴或回帖行为。

3.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法，其特征在于：记原始帖子对应词语向量V₁＝(tf₁，tf₂，...，tf_n)，标题对应词语向量V₂＝(tf₁，tf₂，...，tf_m)，用户回帖对应的词语向量V3＝(tf₁，tf₂，...，tf_k)，这里tf_i表示第i个词在文本中出现的次数，n、m、k分别为向量V₁、V₂、V₃的长度，所述构造用户的兴趣文本向量V如下：