[发明专利]一种基于密度的文本聚类方法在审
申请号: | 201710130909.2 | 申请日: | 2017-03-07 |
公开(公告)号: | CN106934005A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 周应华;李春婷 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 400065 重庆*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 密度 文本 方法 | ||
技术领域
本发明涉及计算机文本信息处理领域,尤其涉及一种关键词提取和语义分析的方法。
背景技术
近年来,随着网络的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长,然而,大部分信息是存储在文本数据库中的,对于这种半结构或无结构化数据,能够获取特定内容信息的手段却较弱,导致信息搜寻困难和信息利用率低下。由此,文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速并高质量的文本聚类技术可以将大量文本信息组成少数有意义的簇,并使同一簇中的文本信息之间具有较高的相似度,而不同簇之间的文本差别较大,从而通过聚类驱动的降维或权值调整来改善检索性能,方便人们对文本信息的利用。聚类技术已成为文本信息挖掘技术中的核心技术,其工作效率与效果直接关系到文本信息处理的理想程度。
发明内容
基于背景技术存在的问题,本发明提出了一种基于语义分析的文本聚类系统及方法,根据语义分析对文本进行聚类,简化了聚类算法的工作量,提高工作效率,聚类的结果更加理想。
目前多数文本聚类算法都是以向量空间模型(VSM)为基础的。这种文本表示方法假设词语间是独立的,没有从语义上去分析文档内容,因而不能准确计算文档间的相似度,影响了聚类的精度,但却引发了高维稀疏的问题。而且,基于向量空间模型的聚类算法都没有很好地解决文本数据所特有的两个自然语言问题:近义词和多义词。所有这些问题都极大干扰了文本聚类算法的效率和准确性,使文本聚类的性能下降。
本发明提出的一种基于密度的文本聚类方法,包括下列步骤:
步骤A,根据数据集对文本进行分词、去除停用词操作;
步骤B,根据得到的文本分词按照名词、动词、形容词三种词性和词频来对分词提取相应关键词;
步骤C,根据得到的关键词采用改进的知网词汇相似度算法计算文本的关键词相似度;
步骤D,根据得到的文本关键词相似度计算文本的相似度;
步骤E,根据得到的文本相似度对文本采用基于密度的聚类算法对文本进行聚类;
所述步骤A中,对文本采用中科院计算所的NLPIR汉语词法分析系统即ICTCLAS2014分词系统,对文本分词及词性进行标注。NLPIR主要功能包括中文分词、词性标注、新词识别,同时支持用户词典,是目前较好的中文词法分析系统。
所述步骤A包括对得到的分词停用词过滤,它通过构造一个停用词表,在文本分词后,删除停用词表中收录的词汇,以过滤停用词。
所述步骤B包括对文本分词按照名词、动词和形容词三种词性进行筛选,其中名词和形容词各占0.4的比重,形容词占0.2的比重。如果词汇i的词性不属于三大词性中的任何一类,则其词汇词性权重geni为0,不用对其计算,以提高计算效率。
所述步骤B包括对得到的文本分词进行词频计算,其公式为词汇i的词频
其中wni表示词汇i在文本中出现的词数。
所述步骤B包括对得到的分词进行关键词权重计算函数设计如下:
weighti=geni*frei(2)
其中geni表示词汇i其词性权重,frei为词汇的词频。
所述步骤C包括对得到的关键词采用改进的知网词汇相似度算法计算文本的关键词相似度,其中《知网》收入的词语主要归为两类,一类是实词,一类是虚词。步骤B中只对名词、动词和形容词这些实词进行处理,虚词在代表文章主旨方面起到的作用很小,这里只对实词计算其词汇相似度,像代表虚词的关系义原和符号义原相似度的计算就不作处理。
所述步骤C中,知网词汇语义相似度计算,对于两个汉语词语W1和W2,如果W1有n个义项(概念):S11,S12,……,S1n,W2有m个义项(概念):S21,S22,……,S2m,我们规定,W1和W2的相似度各个概念的相似度之最大值,也就是说:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710130909.2/2.html,转载请声明来源钻瓜专利网。