[发明专利]一种文本相似度计算方法、装置及电子设备在审

申请号：	201811381929.8	申请日：	2018-11-20
公开（公告）号：	CN109472008A	公开（公告）日：	2019-03-15
发明（设计）人：	徐乐乐	申请（专利权）人：	武汉斗鱼网络科技有限公司
主分类号：	G06F17/21	分类号：	G06F17/21;G06F17/27;G06F16/33
代理公司：	北京众达德权知识产权代理有限公司 11570	代理人：	徐松
地址：	430000 湖北省武汉市东湖开***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本相似度集合目标文本原始文本词性并集装置及电子设备词语文本
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本相似度计算方法、装置及电子设备。本发明实施例方法包括：获取原始文本和目标文本；确定原始文本和目标文本中相同词性的词语；确定原始文本和目标文本中的共同词项集合和并集词项集合；基于相同的词性、共同词项集合所述并集词项集合，计算原始文本和所述目标文本的文本相似度。本发明实施例中文本相似度是综合两个文本之间的词性和共同词项集合和并集词项集合计算出来的，相同词性越多、共同词项越多，则文本相似度越高，计算的文本相似度更加贴近实际，文本相似度计算更加准确。

技术领域

本发明涉及计算机技术领域，特别涉及一种文本相似度计算方法、装置及电子设备。

背景技术

相似度计算用于衡量对象之间的相似程度。在自然语言处理技术领域，相似度计算一个基础性运算，被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理技术领域中常涉及到的相似度计算类型，通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。

现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中，余弦相似度方法对文本进行分词，并根据分词结果构造文本的特征向量，将特征向量之间的余弦相似度作为文本相似度；编辑距离是指两个文本之间，由一个转成另一个所需的最少编辑操作次数，许可的编辑操作包括将文本中的一个字符替换成另一个字符，插入一个字符或删除一个字符，最少编辑操作次数越少，则文本相似度越高；而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。

与一些外文语言不同，在中文语言中，语法和语义的表达较多地依赖语序而实现。因此，在计算中文文本相似度的时候，除了要考虑文本内容以外，还要考虑语序对语义的影响。但是，现有技术的文本相似度方法无论是构造特征向量还是计算编辑距离，都仅仅是计算文本在字符内容上的相似度，没有或很少地考虑到语序对语法和语义的影响，例如，在计算弹幕相似度时候，采用传统的Jaccard算法(编辑距离算法的一种)，一般只考虑文本中相同词来计算文本相似度，没有考虑同类词之间的相关性，这就导致了现有技术中的文本相似度计算方法对依赖语序的中文语言的处理能力较弱，计算中文文本相似度的准确度还不够理想。

发明内容

本发明实施例提供了一种文本相似度计算方法、装置及电子设备，计算的文本相似度更加贴近实际，文本相似度计算更加准确。

第一方面，本申请提供了一种文本相似度计算方法、装置及电子设备，该方法包括：

获取原始文本和目标文本；

确定所述原始文本和所述目标文本中相同词性的词语；

确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合；

基于所述相同的词性、所述共同词项集合和所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述获取原始文本和目标文本的步骤，包括：

获取目标领域的目标语料；

对所述目标语料进行分词，得到待计算文本；

在所述待计算文本中选择原始文本和目标文本。

进一步的，所述确定所述原始文本和所述目标文本中相同词性的词语的步骤，包括：