[发明专利]一种基于搜索引擎的短文本聚类系统及其短文本聚类方法在审
申请号: | 202010194422.2 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111488429A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 赵粉玉;徐鹏波;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/289 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 310012 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索引擎 文本 系统 及其 方法 | ||
本发明提供了一种基于搜索引擎的短文本聚类系统及其短文本聚类方法,一种基于搜索引擎的短文本聚类系统,包括数据预处理模块,搜索引擎数据匹配模块,短文本相似度计算模块,数据处理模块;数据预处理模块是用于负责根据业务实际情况对文本数据进行预处理,所述样本数据即指上述短文本;本发明有效解决了目前聚类方式有计算速度较慢、短文本的聚类效果难以控制、不能实时对某条文本数据进行聚类等缺点问题,而且本发明能够实时将一条文本数据放入其相似的数据集中,而且能够利用搜索引擎数据库的高并发特性实现高效率聚类。
技术领域
本发明涉及大数据处理技术领域,尤其是涉及一种基于搜索引擎的短文本聚类系统及其短文本聚类方法。
背景技术
常见短文本聚类方法有以 k-means 为代表的基于分区的算法、以层次聚类为代表的基于层次划分的算法。k-means算法缺点是需要事先确定聚类的个数,当数据集比较大时,很难给出一个合适的值,层次划分算法需要确定停止分裂的条件,计算速度较慢。基于无监督学习的短文本聚类在噪音数据多的情况下聚类效果不明显,而且不能实时将某条数据放进其相似的数据集中。
发明内容
为解决上述技术问题,本发明提供一种基于搜索引擎的短文本聚类系统及其短文本聚类方法,以针对目前各种无监督的短文本聚类方法已经日渐成熟,如k-means、DBSCAN等方法。但是目前聚类方式有计算速度较慢、短文本的聚类效果难以控制、不能实时对某条文本数据进行聚类等缺点,本发明能够实时将一条文本数据放入其相似的数据集中,而且能够利用搜索引擎数据库的高并发特性实现高效率聚类。
为实现上述目的,本发明提供一种基于搜索引擎的短文本聚类系统,包括数据预处理模块(1),搜索引擎数据匹配模块(2),短文本相似度计算模块(3),数据处理模块(4);
其中,短文本通常是指文本长度比较短,理论上不超过300个字符的文本形式,如微博、新闻主题、观点评论、手机短信、文献摘要等。
数据预处理模块(1)是用于负责根据业务实际情况对文本数据进行预处理,所述样本数据即指上述短文本;
搜索引擎数据匹配模块(2)是将上述数据预处理模块(1)处理好的文本根据相应规则模糊搜索数据库,返回前n条结果;其中规则可以是根据相关业务进行定制,如对新闻进行聚类,可以抽取文本中的地点并保存至数据库中地点字段,检索时对文本和地点进行多字段模糊搜索,返回地点与文本都较相似的数据,会提高聚类的准确度;
短文本相似度计算模块(3)是使用短文本相似度计算方法计算搜索引擎数据匹配模块(2)返回的各句子与输入文本之间的相似度;
数据处理模块(4)是将相似度大于某一阈值的数据根据规则放置到搜索引擎表中相应字段。
本发明还提供一种基于搜索引擎的短文本聚类方法,包括如下流程:
步骤(1)、数据预处理模块(1)负责处理输入的文本数据,去除短文本中的停用词;如:是、并、的等没有实际含义的词,去除格式标记,去除乱码字符等,根据实际情况选择去除英文、数字、表情符号、实际应用设置的特殊停用词等。
举例:如句子”#山西农大不明气体#怎么回事,山西农大周围出现不明气体无色无味,呛得所有人都开始咳嗽,@山西环保舆情网 关部门调查一下 晋中·山西农业大学 🙃”经过处理后得到”山西农大不明气体山西农大周围出现不明气体无色无味呛得所有人都开始咳嗽部门调查一下晋中山西农业大学”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010194422.2/2.html,转载请声明来源钻瓜专利网。