[发明专利]一种基于深度语义路径搜索的短文本聚类方法有效
申请号: | 201710352292.9 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107273426B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 李开宇;李秀生 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 李龙;徐金琼 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 语义 路径 搜索 文本 方法 | ||
本发明属于文本特征向量化表示领域,公开了一种基于深度语义路径搜索的短文本聚类方法。对通用语料库进行预处理,得到所述语料库对应的词汇表;建立所述词汇表中各词语的实数向量;对短文本进行预处理,利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果;采用本发明可以有效的解决个别噪音词对解析整个短文本语义的干扰问题。
技术领域
本发明涉及文本特征向量化表示领域,特别是一种基于深度语义路径搜索的短文本聚类方法。
背景技术
目前,随着社交媒体的广泛流行,聊天机器人的兴起,从短文本中发现有价值信息是十分重要的渠道。而短文本聚类其中重要的任务。它的主要挑战是文本表示的稀疏性。为了克服这个困难,一些研究者尝试通过维基百科或本体库对短文本数据进行丰富和扩展。可是这种扩展都是基于“词”维度上的语义扩展。而实际是在“句子”层面的计算;很有可能导致一个簇里面出现下面两种句子,它们的意思是相反的:我喜欢吃苹果与我不喜欢吃苹果。
这是由语法结构带来的句子表达不一致,这在中文这种句法结构复杂的语言中,带来的反效果十分明显。一些研究人员为解决这种问题,会采用通过“词”聚类的方式,自建语义树;这种语义树的精准度十分有限,如果要达到工业级别可用的高精准度,则需要大量人力参与。
深度神经网络(deep neural networks,DNNs)及其学习算法,作为成功的大数据分析方法,已为学术界和工业界所熟知.与传统方法相比,深度学习方法以数据驱动、能自动地从数据中提取特征(知识),对于分析非结构化、模式不明多变、跨领域的大数据具有显著优势。近几年,词向量化表示方法大大改善了神经网络模型的性能,如递归神经网络(RecNN)和循环神经网络(RNN)。近日,循环神经网络已经在很多自然语言处理领域取得多项突破性进展。但目前大多数工作都致力于利用循环神经网络做有监督任务学习,如主题分类、关系分类等。
通过词语的Embedding来构建语义树,由于Embedding是由无监督模型word2vec学习出来的,它的精准度有一定瓶颈,语义树的构建不精准,会直接导致后续的聚类效果产生较大偏差,很难达到工业级别的应用要求;
如果考虑人工干预,人工专家的成本也非常大;在模型完成优化后,如果要迁移到其他领域,也需要花费此类人工专家干预成本。
现有技术在研究领域有不错的效果,但应用到工业领域,应当多变的情况的时,效果就体现不出来。
发明内容
基于以上技术问题,本发明提供了一种基于深度语义路径搜索的短文本聚类方法,旨在解决个别噪音词语对解析整个短文本语义干扰非常严重的问题。
本发明采用的技术方案如下:
一种基于深度语义路径搜索的短文本聚类方法,包括以下步骤:
步骤1:对通用语料库进行预处理,得到所述语料库对应的词汇表;
步骤2:建立所述词汇表中各词语的实数向量;
步骤3:对短文本进行预处理;
步骤4:利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;
步骤5:搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;
步骤6:利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710352292.9/2.html,转载请声明来源钻瓜专利网。