[发明专利]计算机语言处理中的存储有句段提取程序的非临时性存储介质、语义上类似的句段提取方法以及语言处理装置在审
申请号: | 202180031815.4 | 申请日: | 2021-12-13 |
公开(公告)号: | CN115968474A | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 恩田和直 | 申请(专利权)人: | GAP株式会社 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/242;G06F16/34;G06F40/205;G06F40/166 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 吕琳;朴秀玉 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机语言 处理 中的 存储 有句段 提取 程序 临时性 介质 语义 类似 方法 以及 语言 装置 | ||
存储有程序的非临时性存储介质使计算机执行以下的处理。将第一句段转换成划分为语素的句段,删除重复的语素,生成第一概要。将供判定与第一句段的关联性的第二句段转换成划分为语素的句段,删除重复的语素,生成第二概要。对从第一句段的语素删除重复而得到的第一概要和从第二句段的语素删除重复而得到的第二概要中一致的语素进行计数。基于计数处理的结果判定第一句段与第二句段的关联性,提取与第一句段的关联性满足规定的条件的第二句段的一部分或全部。
技术领域
本发明涉及计算机语言处理中的、存储有在语言关联处理中提取语义上类似的句段的程序的非临时性存储介质、句段提取方法以及语言处理装置。
背景技术
提供了一种设定用户指定的关键字(有效词汇=单词和连续的词汇)或文本(经常使用的文本),检索与所设定的关键字、文本相关的关键字或文本的服务。
例如,专利文献1所记载的类似文本提取装置针对多个对象文本的每一个,进行单词分割,生成单词矢量。此外,该类似文本提取装置基于该单词矢量,生成表示所述对象文本的特征的文矢量。而且,类似文本提取装置基于该文矢量,从所述多个对象文本提取彼此类似的对象文本。
现有技术文献
专利文献
专利文献1:日本特开2019-109654号公报
发明内容
发明所要解决的问题
根据专利文献1,类似文本提取装置将对象文本分割成单词。该类似文本提取装置针对各个分割得到的单词,判别名词、动词、形容词、形容动词、助动词、助词等词类。而且,该类似文本提取装置将从分割得到的单词除掉助词等功能表达而得到的单词生成为单词矢量。类似文本提取装置以该单词矢量为基础生成文矢量。类似文本提取装置基于该文矢量计算类似度,提取类似文本。另一方面,在专利文献1中,类似文本提取装置会除掉助词等功能表达,因此,可能产生无法提取用户所要求的句段的情形。本发明的目的在于提供一种存储有比以往高精度且简便地提取语义上类似的文本(句段)的程序的非临时性存储介质等。
用于解决问题的方案
本发明的实施方式的一个方面通过使计算机执行处理的存储有程序的非临时性存储介质进行举例示出。
该存储有程序的非临时性存储介质使计算机执行:
第一转换处理,基于在语素分析中使用的辞典,将第一句段转换成划分为语素的句段,删除重复的语素,生成第一概要;
第二转换处理,基于在所述语素分析中使用的辞典,将供判定与所述第一句段的关联性的第二句段转换成划分为语素的句段,删除重复的语素,生成第二概要;
计数处理,对从所述第一句段的语素删除重复而得到的所述第一概要和从所述第二句段的语素删除重复而得到的所述第二概要中一致的语素进行计数;以及
提取处理,基于所述计数处理的结果判定所述第一句段与所述第二句段的关联性,提取与所述第一句段的关联性满足规定的条件的所述第二句段的一部分或全部。
发明效果
如以上所说明的那样,本发明能提供一种存储有简便地提取与用户所要求的句段类似的句段的程序的非临时性存储介质等。
附图说明
图1是本发明的语言处理装置的框图。
图2是举例示出本发明的实施方式中的将第一句段转换成划分为语素的句段并删除重复的语素的处理的流程图。
图3是举例示出本发明的实施方式中的将第二句段转换成划分为语素的句段并删除重复的语素的处理的流程图。
图4是本发明的实施方式中的对第一句段和第二句段中一致的语言数进行计数的处理的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于GAP株式会社,未经GAP株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180031815.4/2.html,转载请声明来源钻瓜专利网。