[发明专利]一种基于同义词词林语义相似度的文本聚类方法有效
申请号: | 201911196573.5 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110929529B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 康斌;罗可;罗潇 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247;G06F40/30;G06F40/289;G06F40/216;G06F18/22 |
代理公司: | 长沙智路知识产权代理事务所(普通合伙) 43244 | 代理人: | 陈建国 |
地址: | 410076 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 同义词 语义 相似 文本 方法 | ||
本发明涉及一种基于同义词词林语义相似度的文本聚类方法,包括:获取原始文本集;对所述原始文本集中的每篇文本,进行预处理,得到每篇文本的文本特征词集;采用TF‑IDF方法获取每一特征词项频率的权值并存储在HashMap中;并获取与所述文本特征词集对应的文本的关键特征词;基于所述原始文本集,确定原始文本集中的任意K篇文本分别为初始聚类中心;分别获取第二文本集中的每篇文本与每一初始聚类中心的的语义相似度;将所述第二文本集中的文本分别分配给与所述第二文本集中的文本相似度最大的初始聚类中心所属的类簇;获取所述K个类簇中的关键特征词权值的平均值;获取新的聚类中心,重复步骤直至新的聚类中心相对稳定。
技术领域
本发明涉及一种基于同义词词林语义相似度的文本聚类方法。
背景技术
文本挖掘是提取并挖掘分布在文本数据集中所需、有价值、有用的知识,并且利用这些知识更好地组织信息的过程。文本挖掘利用智能算法,结合文字处理技术,分析大量的无规则的文本集(文本源),将蕴含在文本集中有用的信息提取出来,并按照提取出来的信息对文本集进行分类,通过这一过程,能方便我们更好的组织、获取这些有用的信息。文本挖掘是应用于我们生活的方方面面,为我们提取信息提供了一种高效快捷的方法。目前文本挖掘的主要研究内容包括关联分析、文本分类、文本聚类(Text Clustering)等。
文本聚类可以对文本的信息进行有效的组织、分类等处理能够帮助用户快速、准确获取所需信息。由于其不需要训练,不需要手动的对文档进行分类与标注,因此文本聚类的灵活性较强,目前成为对一个文本集进行有效的分类、组织主要工具。
目前绝大多数的聚类算法对词层面进行简单处理,如空间向量模型,在进行相似度计算时,没有充分挖掘文本的语义信息,忽略了特征项间的语义联系,它假定特征项之间是相互独立的,因此造成文本语义信息丢失,无法挖掘蕴含在文本中的语义信息,同时空间向量模型表示文本存在高维稀疏问题,最终导致聚类的准确度较低。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种基于同义词词林语义相似度的文本聚类方法。
(二)技术方案
为了达到上述目的,本发明提供一种基于同义词词林语义相似度的文本聚类方法,包括步骤:
A1、获取原始文本集;所述原始文本集包括多篇不同类别的文本;
A2、对所述原始文本集中的每篇文本,进行预处理,得到每篇文本的文本特征词集;所述文本特征词集包括与所述文本特征词集对应的文本中的多个特征词项;
A3、针对所述每个文本特征词集,采用TF-IDF方法获取每一特征词项在所属的文本中出现的频率的权值并存储在HashMap中;
A4、根据HashMap中每一文本特征词集中的特征词项权值,得到每一文本特征词集中的特征词项权值由高到低排列的第一序列,并获取与所述文本特征词集对应的文本的关键特征词;
所述文本的关键特征词:为所述第一序列中的前N个特征词项权重值所对应的特征词项;
其中,N为预先设定的第一序列中特征词项权值数量的百分比;
A5、基于所述原始文本集,获取K个初始聚类中心;其中,K为预先设定值;所述每个初始聚类中心均包括:所述原始文本集中的任意一篇文本;
A6、基于所述初始聚类中心和第二文本集,分别获取第二文本集中的每篇文本与每一初始聚类中心的的语义相似度;
其中,所述第二文本集中的文本包括:所述原始文本集中的K个初始聚类中心所对应K篇文本的其余文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911196573.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食品加工机的控制方法
- 下一篇:一种基于字典树的中文未登录词识别方法