[发明专利]生成文档的矢量表示有效
申请号: | 201580006653.3 | 申请日: | 2015-01-30 |
公开(公告)号: | CN105940395B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 国·V·勒 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;穆德骏 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 包括在计算机存储介质上编码的计算机程序的方法、系统以及装置,用于生成文档矢量表示。所述方法中的一个包括:获得新文档;以及使用经训练的神经网络系统来确定所述新文档的矢量表示,其中,所述经训练的神经网络系统已被训练成接收输入文档以及来自所述输入文档的单词序列并且生成单词集中的每个单词的相应单词分数,其中,所述相应单词分数中的每一个都表示对应单词跟随所述输入文档中的所述序列中的最后一个单词的预测似然率,并且其中,使用经训练的神经网络系统来确定所述新文档的矢量表示包括迭代地将所述多个单词序列中的每一个提供给所述经训练的神经网络系统以使用梯度下降来确定所述新文档的所述矢量表示。 | ||
搜索关键词: | 生成 文档 矢量 表示 | ||
【主权项】:
1.一种用于生成文档的矢量表示的方法,包括:从新文档提取(i)多个单词序列,每个单词序列具有预定的固定长度,以及(ii)针对每个单词序列,包括跟随所述新文档中的所述单词序列中的最后一个单词的单词;以及使用经训练的神经网络系统来确定所述新文档的矢量表示,其中,所述经训练的神经网络系统已被训练用于:接收识别输入文档以及来自所述输入文档的单词序列的数据,根据识别所述输入文档的所述数据生成所述输入文档的矢量表示,并且根据第三参数集的经训练的值,处理所述输入文档的所述矢量表示和来自所述输入文档的所述单词序列,以生成预定单词集中的每个单词的相应单词分数,其中,所述相应单词分数中的每一个表示对应单词跟随所述输入文档中的所述序列中的最后一个单词的预测似然率,并且其中,使用所述经训练的神经网络系统来确定所述新文档的所述矢量表示包括:迭代地将所述多个单词序列中的每一个提供给所述经训练的神经网络系统,以使用梯度下降来确定所述新文档的所述矢量表示,包括,对于每个单词序列:向所述经训练的神经网络系统提供所述单词序列,以获得预定单词集中的每个单词的相应单词分数,所述预定单词集是使用所述新文档的所述矢量表示并根据所述第三参数集的所述经训练的值而生成的,计算相对于误差函数的所述矢量表示的梯度,所述误差函数测量相应单词分数与单词分数的目标集之间的误差,所述单词分数识别跟随所述新文档中的所述单词序列中的最后一个单词的单词,以及使用梯度下降,基于所述梯度来调整所述新文档的所述矢量表示,同时将所述第三参数集的所述经训练的值保持固定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201580006653.3/,转载请声明来源钻瓜专利网。