[发明专利]歌词相似度计算方法、终端设备及计算机可读存储介质有效
| 申请号: | 201710804745.7 | 申请日: | 2017-09-07 |
| 公开(公告)号: | CN107688661B | 公开(公告)日: | 2021-03-05 |
| 发明(设计)人: | 劳振锋 | 申请(专利权)人: | 广州酷狗计算机科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/194 |
| 代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
| 地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 歌词 相似 计算方法 终端设备 计算机 可读 存储 介质 | ||
本发明公开了一种歌词相似度计算方法,包括:从目标歌词文件中选取两句歌词文本,并将选取的两句歌词文本分别作为第一歌词文本和第二歌词文本;获取第一歌词文本和第二歌词文本从头开始的第一连续相同字数,并获取第一歌词文本和第二歌词文本的第一重合字数;根据第一重合字数及第一连续相同字数计算相似度。本发明还公开了一种终端设备及计算机可读存储介质。本发明能够根据第一重合字数及第一连续相同字数准确的计算得到歌词文本之间的相似度,进而在计算歌词文本的相似度时,除了重合字数外,还采用连续相同字数,能够避免遗漏歌词开头或结尾相似,从而整句歌词也相似的句子,提高了查找相似歌词的全面性及准确性。
技术领域
本发明涉及文本处理技术领域,尤其涉及一种歌词相似度计算方法、终端设备及计算机可读存储介质。
背景技术
歌词文本的相似程度是利用文本信息来提取歌曲高潮时通常会用到的特征之一,歌词文本的相似程度的精确性会大大影响高潮提取的精确程度。
现有技术中一般是直接比较歌词的重合字数,再除以歌词的句长,得到两句歌词的相似程度。这样得到的相似度虽然精确,但是也遗漏了很多歌词开头或结尾相似,从而整句歌词也相似的句子,导致查找相似歌词并不全面。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种歌词相似度计算方法、终端设备及计算机可读存储介质,旨在解决现有技术中查找相似歌词不全面的技术问题。
为实现上述目的,本发明提供一种歌词相似度计算方法,所述歌词相似度计算方法包括以下步骤:
从目标歌词文件中选取两句歌词文本,并将选取的两句歌词文本分别作为第一歌词文本和第二歌词文本;
获取所述第一歌词文本和第二歌词文本从头开始的第一连续相同字数,并获取所述第一歌词文本和第二歌词文本的第一重合字数;
根据所述第一重合字数及所述第一连续相同字数计算所述第一歌词文本和第二歌词文本之间的相似度。
优选地,所述根据所述第一重合字数及所述第一连续相同字数计算所述第一歌词文本和第二歌词文本之间的相似度的步骤包括:
获取所述第一歌词文本的第一文本长度及所述第二歌词文本的第二文本长度;
将所述第一文本长度与所述第二文本长度之间较小的长度值设置为文本长度;
根据所述文本长度、所述第一重合字数及所述第一连续相同字数计算所述相似度。
优选地,所述根据所述文本长度、所述第一重合字数及所述第一连续相同字数计算所述相似度的步骤包括:
对所述第一重合字数及第一连续相同字数进行加权求和,获得求和值;
根据所述求和值及所述文本长度计算所述相似度。
优选地,所述根据所述第一重合字数及所述第一连续相同字数计算所述第一歌词文本和第二歌词文本之间的相似度的步骤包括:
将所述第一歌词文本和第二歌词文本分别进行倒序,获取倒序后的第一歌词文本和倒序后的第二歌词文本从头开始的第二连续相同字数,并获取所述倒序后的第一歌词文本和倒序后的第二歌词文本的第二重合字数;
根据所述第一重合字数、第二重合字数、第一连续相同字数和第二连续相同字数计算所述相似度。
优选地,所述根据所述第一重合字数、第二重合字数、第一连续相同字数和第二连续相同字数计算所述相似度的步骤包括:
根据所述第一重合字数、第一连续相同字数和第二连续相同字数计算第一相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州酷狗计算机科技有限公司,未经广州酷狗计算机科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710804745.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于长条的合金铝棒切割设备
- 下一篇:OTA酒店的推荐方法及系统





