[发明专利]上下文信息生成方法、上下文信息生成装置及计算机可读记录介质在审

专利信息
申请号: 201910949442.3 申请日: 2019-10-08
公开(公告)号: CN111046659A 公开(公告)日: 2020-04-21
发明(设计)人: 大仓清司;片冈正弘;尾上聪 申请(专利权)人: 富士通株式会社
主分类号: G06F40/284 分类号: G06F40/284;G06N20/00;G06N3/08
代理公司: 北京三友知识产权代理有限公司 11127 代理人: 刘久亮;黄纶伟
地址: 日本神奈*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 上下文 信息 生成 方法 装置 计算机 可读 记录 介质
【说明书】:

上下文信息生成方法、上下文信息生成装置及计算机可读记录介质。存储单元内存储文档和作为针对多个单词分别计算出的单词嵌入的多个单词向量。处理单元针对单词中的一个单词,从文档中提取位于从所述一个单词出现的一个出现位置起的规定范围内的两个或更多个周边单词,并通过将分别对应于周边单词的单词向量相加来计算和向量。处理单元确定参数,以使用机器学习模型,根据和向量和该参数来预测周边单词。处理单元将参数作为所述一个出现位置的上下文信息,与对应于一个单词的单词向量相关联地存储。

技术领域

本文讨论的实施方式涉及上下文信息生成方法、上下文信息生成装置及计算机可读记录介质。

背景技术

在处理以自然语言书写的文档的自然语言处理领域中,可以使用单词嵌入向量作为表示单词的特征的特征信息。单词嵌入捕获单词的含义(定义)并提供一种将相似向量与具有相似含义的单词相关联的方法。单词嵌入向量的使用使得能够高效搜索与查询语句相似的语句,进而能够提供包括机器翻译和对话系统在内的各种自然语言处理服务。

例如,按以下方式生成单词嵌入向量。针对训练文档中的每个单词,从训练文档中提取在该单词附近出现的周边单词,然后训练诸如神经网络之类的机器学习模型,使得它能够根据单词预测该单词的周边单词。这里,机器学习模型是通过无需为训练文档分配教师标签的无监督学习来训练的。在训练后,每个单词被馈送至机器学习模型以使机器学习模型计算向量,然后提取计算出的向量并将其与单词相关联来作为单词嵌入向量。就此而言,可以针对不同的、但是在其附近经常具有相似的周边单词的单词来计算相似向量。

已经提出了一种词汇歧义消解装置,该词汇歧义消解装置确定在语句中具有两个或更多个可能含义的单词的正确含义。所提出的词汇歧义消解装置被设计为读取先前分配了各自指示可观测单词的含义的教师标签的培训文档,并且通过区分可观测单词的不同含义,来学习诸如在可观测单词与其周边单词之间同现的频率之类的统计信息。词汇歧义消解装置读取要处理的输入文档,并基于输入文档中可观测单词附近的周边单词和针对每个含义先前学习的统计信息,来确定输入文档中可观测单词的含义。另外,已经提出了一种确定装置,该确定装置提取三个单词的单词嵌入向量,并计算由所提取的三个向量形成的角度作为关于这三个单词之间的相关性的指标。

参见例如日本特开平10-171806号专利公报。

另请参见日本特开2017-167986号专利公报。

然而,将单词嵌入向量与单词相关联的上述常规技术被设计为将唯一向量与每个单词拼写相关联。由于单词拼写和向量之间的关系是固定的,因此不可能满足将相似向量与具有相似含义的单词相关联的期望,这降低了相似句子的检索准确性。

如果培训文档中具有两个或更多个不同含义的单词未分配指示该单词正确含义的教师标签,则该单词可以在没有考虑其上下文的情况下始终被标识为表示同一事物,因此可以在没有区分不同含义的情况下计算平均向量。另外,例如,如果培训文档包含单词的拼写错误或拼写变体,则该单词的不同拼写可能会被标识为代表不同单词。在这种情况下,由于统计过程针对拼写发生频率较低的单词可能生成不同的向量,因此基于拼写错误或拼写变体,可能针对单词的不同拼写计算出不相似的向量。如上所述,传统的单词嵌入难以处理单词在每个出现位置处的上下文。

处理上下文的一种方法可以是使用机器学习模型(诸如递归神经网络(RNN)或长短期记忆(LSTM))将一个向量与多个连续单词的序列相关联。但是,该方法需要巨大的计算量。另外,关于周边单词顺序的信息是用于确定上下文之间的一致性的额外信息。

发明内容

根据一个方面,本发明旨在提供一种用于针对单词的每个出现位置有效地生成上下文信息的方法、装置及存储计算机程序的计算机可读记录介质。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910949442.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top