[发明专利]一种基于bootstrapping的文本相似度计算方法有效

申请号：	201810400574.6	申请日：	2018-04-28
公开（公告）号：	CN110413956B	公开（公告）日：	2023-08-01
发明（设计）人：	王清琛;杜振东	申请（专利权）人：	南京云问网络技术有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/284
代理公司：	常州佰业腾飞专利代理事务所(普通合伙) 32231	代理人：	刘娟娟
地址：	211106 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bootstrapping 文本相似计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于bootstrapping的文本相似度计算方法，它包括：计算词的逆向文档频率作为词权重的初始值；依据逆向文档频率选择初始核心词表；计算文本中词的共现矩阵；根据bootstrapping算法，计算候选词和初始核心词的相关度作为更新权重的系数；根据词向量V、词权重W和词性权值F来计算句向量。采用本发明的技术方案，可以显著提高短文本的相似度计算。

技术领域

本发明涉及一种词权重的计算方法，尤其是一种基于bootstrapping的文本相似度计算方法。

背景技术

在当今的信息互联网时代，大量的文本信息需要经过加工处理才能有效利用。因此，自然语言处理领域不断发展起来。在自然语言处理中将文本分词并用词权重来表示，生成向量空间模型是常见处理方式。目前在词权重的计算方法上已经提出了很多有效的方法，其中使用tfidf作为词权重是最常使用的方法之一。

bootstarpping算法是在统计学的基础上，利用有限的样本进行重复采样的过程。每迭代一次就会产生新的样本，来抽取与初始样本相似的新样本。

词向量是指通过对语料中的分词进行统计，将每个词映射到一个多维的富含上文信息的向量空间中。词向量的维度可以根据具体的任务来设置，便于将文本信息转化为可计算的数值信息，对自然语言处理有着重要的作用。

发明内容

为解决传统的idf仅是从词频上判别分词的权重，而忽视了词汇之间关联的不足，本发明提供一种基于bootstrapping的文本相似度计算方法，用来优化idf词权重以提高文本相似度。

为实现上述目的，本发明采用下述技术方案：

一种基于bootstrapping的文本相似度计算方法，它包括以下步骤：

步骤一，计算词的逆向文档频率作为词权重的初始值；

步骤二，依据逆向文档频率选择初始核心词表；