[发明专利]相似度计算装置、记录介质以及相似度计算方法在审
申请号: | 202110213132.2 | 申请日: | 2021-02-24 |
公开(公告)号: | CN113326686A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 梅原光规;粕渊清孝;宫井清孝;吉田明子;北村一博;寺田万理 | 申请(专利权)人: | 株式会社斯库林集团 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/247;G06F40/30 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 向勇;宋晓宝 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似 计算 装置 记录 介质 以及 计算方法 | ||
本发明提供一种相似度计算装置,即使在创建多个同义词组的情况下,也能够有效地实现术语的统一。相似度计算装置包括:名称获取部,获取属于第一同义词组的各个单词所属的第一组名称和属于第二同义词组的各个单词所属的第二组名称;名称集合生成部,生成第一组名称集合和第二组名称集合;以及相似度计算部,计算第一组名称集合与第二组名称集合之间的相似度。
技术领域
本申请说明书所公开的技术涉及相似度计算装置、相似度计算程序以及相似度计算方法。
背景技术
以往,使用如下技术:例如以吸收文件内的表述偏差为目的,创建由多个同义词组成的同义词组(例如,参照专利文献1)。
专利文献1:日本特开2016-224482号公报。
然而,当使用专利文献1中所示的技术等创建同义词组时,有时会创建有相互相似的多个同义词组。在该情况下,由于存在多个可使用的同义词组,因而,难以统一术语。另一方面,用人工汇总这些同义词组的作业非常耗时。
发明内容
本申请说明书所公开的技术鉴于上述情况而提出,其是即使在创建有多个同义词组的情况下,也有效地实现术语的统一的技术。
本申请说明书所公开的技术的第一方式的相似度计算装置,计算多个同义词组之间的相似度,其中,各个所述同义词组由相互为同义词的多个单词组成,所述相似度计算装置包括:名称获取部,获取至少一个第一组名称和至少一个第二组名称,所述第一组名称是属于多个所述同义词组中的第一同义词组的各个所述单词所属的所述同义词组的名称,所述第二组名称是属于多个所述同义词组中的第二同义词组的各个所述单词所属的所述同义词组的名称;名称集合生成部,生成以至少一个所述第一组名称为元素的第一组名称集合和以至少一个所述第二组名称为元素的第二组名称集合;以及相似度计算部,计算所述第一组名称集合与所述第二组名称集合之间的相似度。
本申请说明书所公开的技术的第二方式的相似度计算装置与第一方式相关联,所述相似度计算装置还包括结合部,当所述相似度在阈值以上时,所述结合部将所述第一同义词组与所述第二同义词组结合。
本申请说明书所公开的技术的第三方式的相似度计算装置与第一或第二方式相关联,所述相似度计算部使用Dice系数来计算所述相似度。
本申请说明书所公开的技术的第四方式的相似度计算装置与第一至第三方式中的任一方式相关联,所述相似度计算部根据所述第一组名称集合中的能够获取的所述第一组名称只有一个的所述单词的个数,使所述第一组名称集合的元素个数增加,并且根据所述第二组名称集合中的能够获取的所述第二组名称只有一个的所述单词的个数,使所述第二组名称集合的元素个数增加。
本申请说明书所公开的技术的第五方式的记录介质,存储有相似度计算程序是计算多个同义词组之间的相似度的相似度计算程序,各个所述同义词组由相互为同义词的多个单词组成,通过在计算机中安装所述相似度计算程序并执行,使所述计算机获取至少一个第一组名称和至少一个第二组名称,所述第一组名称是属于多个所述同义词组中的第一同义词组的各个所述单词所属的所述同义词组的名称,所述第二组名称是属于多个所述同义词组中的第二同义词组的各个所述单词所属的所述同义词组的名称,使所述计算机生成以至少一个所述第一组名称为元素的第一组名称集合和以至少一个所述第二组名称为元素的第二组名称集合,使所述计算机计算所述第一组名称集合与所述第二组名称集合之间的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社斯库林集团,未经株式会社斯库林集团许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110213132.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据协作系统和数据存储系统
- 下一篇:连接器