[发明专利]互联网热点主题相关性挖掘方法无效
| 申请号: | 200710156182.1 | 申请日: | 2007-10-23 |
| 公开(公告)号: | CN101158957A | 公开(公告)日: | 2008-04-09 |
| 发明(设计)人: | 寿黎但;陈刚;胡天磊;陈珂;汪源 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 林怀禹 |
| 地址: | 310027浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 互联网 热点 主题 相关性 挖掘 方法 | ||
技术领域
本发明设计属于关联规则挖掘领域,特别涉及一种互联网热点主题相关性挖掘方法。
背景技术
随着互联网络的日渐普及,blog也被越来越多的人使用。在数据迅速膨胀的背景下,对热点主题进行关联是梳理海量信息的一个必要和有效手段。所谓热点主题相关性挖掘的目的是将具有内在关联的热点主题关键词从海量的数据中快速准确的自动提取出来,并在用户检索时推荐出来。例如:系统以目前用户检索的3万多热点关键词作为待挖掘主题,在对用户博客标题作为数据源,扫描分析得到结果文件后,当用户检索刘德华时,系统将会推荐:墨攻,电影,范冰冰,墨子等关键词,从而提升整个系统的用户满意度。但是传统的关联规则挖掘的一个先决条件就是结果必须是高频繁词,也就是说支持度要达到一定阈值。但是,本发明更侧重的是新的热点主题关键词的发现与关联,则传统的算法不能较好的挖掘出主题关键词间的相关性。如果能对候选空间加以合理的约束则能够克服上述的问题。
目前常用的互联网热点主题挖掘的技术和方法有:
1.通过提取预设类别的热门查询记录,当用户查询相关类别主题时,自动提示本类别已经提取的热门主题。该方法只是将非热门与热门进行机械的关联,没有主题内在的关联性,某个类别的关联主题都是一致的,用户体验很差。
2.通过编辑将特性的人,物,事件,进行关联。这样做,虽然语义上很准确,但是因为是人工编辑,所以能够处理的量很小且不能及时自动发现网络中的热点关联。
3.利用经典的apriori算法进行计算,但是因为apriori的局限性,对于新出现的热点主题算法效果不佳,将对大大降低用户的体验。
以上算法都不能满足及时,准确,快速挖掘互联网热点主题关联性。
发明内容
本发明目的在于提供一种互联网热点主题相关性挖掘方法,利用条件概率来克服传统算法对于不频繁关键词处理不当的问题,并实现了对辞典与数据源的增量式处理。
本发明解决其技术问题采用的技术方案是,该方法的步骤如下:
1)根据热门查询,提取热点主题关键词,组成热点主题关键词词典;
2)扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点主题关键词的频率;
3)采用公式SCORE(B|A)=min(P(A,B)/P(A),P(A,B)/P(B))来计算热点主题关键词A与B的相关性得分;
4)将与每个热点主题关键词相关的热点主题关键词按照上述3)中的公式计算得分并排序;
5)用户查询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。
2.步骤1)中,热门查询为一定时间段内用户的热点查询词,以此作为待分析的热点主题关键词,并组成词典。
步骤2)中,稀疏矩阵为问题本身特性所决定,其横纵坐标均为热点主题关键词的标号,其全局序即热点主题关键词之间的关系以((x-1)*(x))/2+y来确定,其中x,y分别为两热点主题关键词中标号大的一个,小的一个。
步骤2)中,扫描数据源时,处理每条记录,将其分词后出现的热点主题关键词成对更新矩阵中对应的频率,并更新相应的热点主题关键词的频率。直至处理完整个数据源。
步骤3)中,当所有数据处理完毕,遍历该稀疏矩阵,并按照步骤3)中公式计算相对得分,针对矩阵每列或每行以此得分进行排序,得出结果集。
本发明具有的有益效果是:
能够准确快速地挖掘出热点主题之间的相关性,克服了现有算法性能不高,特别对于新增的热点主题关键词处理效果差的问题,能够更好的满足互联网中大规模热点主题推荐的性能要求。
附图说明
图1是系统整体框架图。
图2是系统处理流程图。
图3是稀疏矩阵的表示图。
图4是增量处理的示意图。
具体实施方式
图1给出互联网热点主题相关性挖掘的系统框架图,首先根据热门查询,提取热点主题关键词,组成热点主题关键词词典;然后扫描数据源,对每条记录过滤热点主题关键词对,更新在稀疏矩阵中对应的频率,同时更新每个热点主题关键词的频率;通过计算热点主题关键词间的相关性得分,根据得分排序;用户查询时,按照得分降序将与该热点主题关键词相应的热点主题关键词作为结果反馈。
具体实施流程如图2所示,其中重要的步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710156182.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种断电记忆状态的直流微功耗继电器
- 下一篇:磁控管检测装置





