[发明专利]基于网络流和分层知识库的动态文本聚类方法无效
| 申请号: | 200710038634.6 | 申请日: | 2007-03-29 |
| 公开(公告)号: | CN101059805A | 公开(公告)日: | 2007-10-24 |
| 发明(设计)人: | 闵可锐;刘昕;刘百祥;闫华 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/00;G06F17/28 |
| 代理公司: | 上海正旦专利代理有限公司 | 代理人: | 陆飞;盛志范 |
| 地址: | 20043*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 网络 分层 知识库 动态 文本 方法 | ||
技术领域
本发明属于信息处理和网络内容安全技术领域,具体涉及一种基于网络流和分层知识库的动态文本聚类方法。
技术背景
今天生活在信息爆炸的时代,据有关资料显示,到2003年全世界互联网网页总数达到了131亿。有专家预测,中文将成为互联网上最大的语种之一。互联网也已经成为人们发布和获取信息的重要渠道。新闻、论坛和博客等网络媒体在中国已发展成为洞察社会舆论的重要窗口,网络舆论对公众思想和政府决策发挥着越来越大的影响。中国互联网覆盖范围不断扩大,中国网民言论之活跃已达前所未有的程度,互动式的网络评论以其快捷、尖锐的特点,已显示了其不可忽视的力量。网络舆论正在发挥其强大的威力。
在网络舆论蓬勃发展的同时,由于网络信息发布具有无地域性和匿名性等特点,各种信息难以进行有效的监督和管理。互联网上充斥着虚假广告信息和各种非法言论,对网络舆论导向造成了严重的影响。如何在互联网这个信息的“汪洋大海”中“大海捞针”,如何快捷准确地获取感兴趣的信息成为当前及今后相当一个时期急待解决的重要课题。由此引发的许多工作,特别是中文和汉语环境下的信息处理和自然语言处理应用的诸多技术难题等待着人们去解决。
本发明拟解决的问题是通过结合网络流和分层知识库的方法来实现网络动态文本聚类。网络文本聚类是数据对象划分的一个过程,也是寻找等价集合的一个过程。聚类是一个无指导的学习过程[1,2],目标是将随机分布的样本点划分到已经存在或还未存在的集合当中。一般而言,文本聚类方法可以分为:
1.划分方法:K-平均、K-中心等。
2.层次方法:CURE等。
3.基于密度的方法:DBSCAN、OPTICS等。
4.基于网格的方法:STING等。
5.基于模型的方法:神经网络等。
Web文档有着最明显的两个特点,第一是数量庞大,第二是更新迅速。因此,要求聚类算法的复杂度不能过高,一个时间复杂度高于0(n2)的聚类算法是很难在短时间完成上万个文档聚类的。同时,要求算法对于单文档的增加或删除所花费的代价不能太大。上述经典的聚类算法都难以同时满足这两点要求,许多算法对于一篇文章的增加必须将n篇文章全部重新计算,所花费的时间是难以承受的。
参考文献
[1]Jiawei Han,Kamber M数据挖掘概念与技术[M].北京:机械工业出版社.2005
[2]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社.2003
[3]卜东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中国科学院.2000
[4]Gruber M,Neuner P,Puchinger J.Klassi-kation der Min Cost Flow Algorithmen[EB/OL].[2006-5-13]
http://www.ads.tuwien.ac.at/teaching/ws04/AlgoGraph/solutionU2A5.pdf
[5]WANG JM.Text Clustering II[EB/OL].[2006-5-13]
http://net.pku.edu.cn/~wbia/2004/public_html/slides/Week10-Text%20Clustering%20II.pdf
[6]鲁松,李晓黎,白硕,王实.文档中词语权重计算方法的改进[J].中文信息学报,2000(6):8-13,20
[7]郑宗汉,郑晓明.算法设计与分析[M].北京:清华大学出版社.2005
[8]http://wordnet.princeton.edu/
符号表(在本发明的全部文档中所采用符号的含义):
Wi:文档中的单词(经过分词和过滤后余下)。
Sim(Wi,Wj):单词Wi与Wj的相似度。
TF:一个词在一篇文档中出现的频率。
t:文档集中的单词数量。
N:文档集中的文档数量。
DFi:文档集中包含单词i的文档数。
L:表征一篇文档的向量维度。
Lc:文档类别的向量维度。
f(Wi):关键词权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710038634.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种砼用空腹构件
- 下一篇:一种音视频信号一次调制同频同步传输方法及系统





