[发明专利]一种基于BTM主题模型和Doc2vec的文本相似度计算方法在审
| 申请号: | 202110824750.0 | 申请日: | 2021-07-21 |
| 公开(公告)号: | CN113591473A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 郑江滨;曹宏业 | 申请(专利权)人: | 西北工业大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
| 地址: | 710072 *** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 btm 主题 模型 doc2vec 文本 相似 计算方法 | ||
本发明公开了一种基于BTM主题模型和Doc2vec的文本相似度计算方法,首先进行数据预处理与基础模型训练,使用大规模语料库对基础Doc2vec模型进行训练,对待检测的文本数据,进行分词处理,用于下一阶段Doc2vec模型的数据输入;其次进行模型的数据训练处理,使用分词后的数据对Doc2vec模型进行训练,得到文本向量集合,同时使用BTM主题模型对待检测文本数据进行训练,得到文本主题集合。最后进行数据相似度的计算,在文本向量集合基础上,结合文本主题信息,得到主题向量集合,将文本向量与主题向量进行融合得到表征数据的距离向量,针对距离向量使用余弦相似度计算公式计算得到数据相似度值。本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种文本相似度计算方法。
背景技术
在自然语言处理、数据挖掘等领域,文本之间的相似度是一个重要的研究内容,随着大数据时代的到来,信息增长迅速,造成了大量数据冗余的问题,通过准确计算数据之间的相似度,来对冗余数据进行删除,可以有效解决这一问题。主题模型由于可以深度发掘文本之间的语义信息,对各文本的语义信息以主题的形式进行总结表述,可通过两本文之间的代表性的主题内容进行数据比对,因而较为广泛用于文本相似度的计算,传统的主题模型主要是通过计算词语在文档中的重要程度来进行模型建立,当语料较短时难以计算词语的重要性,导致数据稀疏。针对这一缺陷,BTM主题模型应运而生。
自2003年词向量提出以来,深度学习的方法广泛应用于文本相似度计算之中,Doc2vec模型作为一种无监督的训练模型,不需要依赖于标签数据信息就可以计算文本间的语义相似度。但由于无监督的深度学习模型需要大规模的数据进行训练,并且无法有效利用标签数据的信息,存在训练时间过长,检测准确率低等问题。
因此本发明使用BTM主题模型与Doc2vec模型相结合,将主题信息引入无监督训练模型之中,BTM模型提取本文中的主题信息,与Doc2vec模型处理得到的词向量信息相结合,更加准确地表征出数据内涵,最后使用余弦相似度计算公式,计算得到文本相似度值。
发明内容
为了克服现有技术的不足,本发明提供了一种基于BTM主题模型和Doc2vec的文本相似度计算方法,首先进行数据预处理与基础模型训练,使用大规模语料库对基础Doc2vec模型进行训练,对待检测的文本数据,进行分词处理,用于下一阶段Doc2vec模型的数据输入;其次进行模型的数据训练处理,使用分词后的数据对Doc2vec模型进行训练,得到文本向量集合,同时使用BTM主题模型对待检测文本数据进行训练,得到文本主题集合。最后进行数据相似度的计算,在文本向量集合基础上,结合文本主题信息,得到主题向量集合,将文本向量与主题向量进行融合得到表征数据的距离向量,针对距离向量使用余弦相似度计算公式计算得到数据相似度值。本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型定义与数据预处理;
首先对如表1所示的基础Doc2vec模型参数进行定义,再使用语料库对Doc2vec基础模型进行训练;
对于待检测的文本数据d{d1,d2,...,dn},使用分词工具,对待检测文本数据进行分词处理,处理后的数据项用于进行下一阶段的模型训练处理;
表1Doc2vec基础模型参数
步骤2:模型训练;
使用处理后的数据项对经过语料库训练后的Doc2vec模型再次进行训练,得到数据的文本向量集合{v(d1),v(d2),...,v(dn)};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110824750.0/2.html,转载请声明来源钻瓜专利网。





