[发明专利]歌词相似度计算方法、终端设备及计算机可读存储介质有效

申请号：	201710804745.7	申请日：	2017-09-07
公开（公告）号：	CN107688661B	公开（公告）日：	2021-03-05
发明（设计）人：	劳振锋	申请（专利权）人：	广州酷狗计算机科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/194
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	510000 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	歌词相似计算方法终端设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种歌词相似度计算方法，包括：从目标歌词文件中选取两句歌词文本，并将选取的两句歌词文本分别作为第一歌词文本和第二歌词文本；获取第一歌词文本和第二歌词文本从头开始的第一连续相同字数，并获取第一歌词文本和第二歌词文本的第一重合字数；根据第一重合字数及第一连续相同字数计算相似度。本发明还公开了一种终端设备及计算机可读存储介质。本发明能够根据第一重合字数及第一连续相同字数准确的计算得到歌词文本之间的相似度，进而在计算歌词文本的相似度时，除了重合字数外，还采用连续相同字数，能够避免遗漏歌词开头或结尾相似，从而整句歌词也相似的句子，提高了查找相似歌词的全面性及准确性。

技术领域

本发明涉及文本处理技术领域，尤其涉及一种歌词相似度计算方法、终端设备及计算机可读存储介质。

背景技术

歌词文本的相似程度是利用文本信息来提取歌曲高潮时通常会用到的特征之一，歌词文本的相似程度的精确性会大大影响高潮提取的精确程度。

现有技术中一般是直接比较歌词的重合字数，再除以歌词的句长，得到两句歌词的相似程度。这样得到的相似度虽然精确，但是也遗漏了很多歌词开头或结尾相似，从而整句歌词也相似的句子，导致查找相似歌词并不全面。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种歌词相似度计算方法、终端设备及计算机可读存储介质，旨在解决现有技术中查找相似歌词不全面的技术问题。

为实现上述目的，本发明提供一种歌词相似度计算方法，所述歌词相似度计算方法包括以下步骤：

从目标歌词文件中选取两句歌词文本，并将选取的两句歌词文本分别作为第一歌词文本和第二歌词文本；

获取所述第一歌词文本和第二歌词文本从头开始的第一连续相同字数，并获取所述第一歌词文本和第二歌词文本的第一重合字数；

根据所述第一重合字数及所述第一连续相同字数计算所述第一歌词文本和第二歌词文本之间的相似度。