[发明专利]一种基于搜索引擎的短文本聚类系统及其短文本聚类方法在审
申请号: | 202010194422.2 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111488429A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 赵粉玉;徐鹏波;陈尚武 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/289 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 310012 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索引擎 文本 系统 及其 方法 | ||
1.一种基于搜索引擎的短文本聚类系统,其特征在于,包括数据预处理模块(1),搜索引擎数据匹配模块(2),短文本相似度计算模块(3),数据处理模块(4);
数据预处理模块(1)是用于负责根据业务实际情况对文本数据进行预处理,所述样本数据即指上述短文本;
搜索引擎数据匹配模块(2)是将上述数据预处理模块(1)处理好的文本根据模糊搜索数据库,返回前n条结果;
短文本相似度计算模块(3)是使用短文本相似度计算方法计算搜索引擎数据匹配模块(2)返回的各句子与输入文本之间的相似度;
数据处理模块(4)是将相似度大于某一阈值的数据放置到搜索引擎表中相应字段。
2.根据权利要求1中所述的一种基于搜索引擎的短文本聚类系统,其特征在于,所述短文本是指文本长度比较短,不超过300个字符的文本形式,如微博、新闻主题、观点评论、手机短信、文献摘要。
3.一种基于搜索引擎的短文本聚类方法,其特征在于,包括如下流程:
步骤(1)、数据预处理模块(1)负责处理输入的文本数据,去除短文本中的停用词;
步骤(2)、搜索引擎数据匹配模块(2)选择一种搜索引擎数据库,搜索引擎用于处理全文搜索;
步骤(3)、短文本相似度计算模块(3)是将搜索引擎数据匹配模块(2)中的前n条句子各短句分词并去除噪音部分,通过词向量空间模型转化为词向量列表再通过向量间余弦相似度计算短句之间的相似度;
步骤(4)、数据处理模块(4)在数据库中设置相似字段相似数据集,用短文本相似度计算模块(3)中公式循环计算匹配句与匹配返回列表中各句之间的相似度,将相似度小于设定阈值的直接添加进数据库中;将相似度大于设定阈值并且句子长度小于相似句的,添加进相似句的相似数据集字段中;将相似度大于设定阈值并且长度大于相似句的,则替换掉相似句,并将相似句添加进此句的相似数据集字段中。
4.根据权利要求3中所述的一种基于搜索引擎的短文本聚类方法,其特征在于,步骤(2)中,搜索引擎在处理全文搜索时,首先分析查询字符串,然后根据分词构建查询,搜索结果展现的是一个按score得分从高到底排好序的结果集,得分越高两个句子会越相似;搜索引擎中的分词器安装配置为ik_smart、ik_max_word或其它中文分词器,搜索引擎中停用词、字典根据需求进行增删改;
采用直接搜索方式或CURL命令方式在搜索引擎数据库中模糊搜索短文本,并返回前n条比较相似的语句,其中n是根据最终效果进行调整。
5.根据权利要求3中所述的一种基于搜索引擎的短文本聚类方法,其特征在于,在步骤(3)中,所述词向量空间模型是将维基百科语料或其它大型语料通过中文分词工具分词并去除停用词后,使用gensim工具包的word2vec训练得到的模型,该词向量空间模型的作用是将词用向量表示;
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小;余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似;两个向量间的余弦值是通过使用以下公式求出,其中A、B即为两句通过词向量空间模型转化成的词向量列表;
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010194422.2/1.html,转载请声明来源钻瓜专利网。