[发明专利]自然语言处理的训练方法、装置、自动问答方法和装置有效
| 申请号: | 201910258595.3 | 申请日: | 2019-04-01 |
| 公开(公告)号: | CN110162596B | 公开(公告)日: | 2023-07-14 |
| 发明(设计)人: | 罗定嘉;翟铮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司;腾讯云计算(北京)有限责任公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/211;G06F40/247;G06F18/22;G06F18/214 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自然语言 处理 训练 方法 装置 自动 问答 | ||
1.一种用于自然语言处理的训练方法,包括:
获取用于训练的语料库;
初始化所述语料库的表示集,所述表示集的每一组成元素表示所述语料库中一个词;
以所述表示集作为参数构造目标函数;以及
执行训练,调整所述表示集,获得训练后的所述表示集,所述训练后的所述表示集使得所述目标函数满足预定训练结束条件;
其中,所述目标函数包括正负样本相对差异表示部分,用于使得训练后所述语料库中的正样本和负样本满足预定收敛条件,
其中,所述预定训练结束条件为所述训练后的所述表示集使得所述目标函数最小化,并且所述预定收敛条件为所述语料库中的正样本和负样本在表示空间中的距离最大化,
其中,所述目标函数还包括正负样本绝对值表示部分,所述正负样本绝对值表示部分表示为:
所述目标函数L表示为:
L(W)=l(W)+λl0(W)
其中,所述表示集为表示矩阵W,所述训练使所述表示矩阵W满足:
W*=argminW(l(W)+λl0(W))
其中,exp代表以e为底的指数函数,Sk表示对所述语料库中整体样本进行随机抽样得到的样本集合,λ表示所述正负样本相对差异表示部分l(W)和所述正负样本绝对值表示部分l0(W)之间的权重,其取值在0到1之间,W*代表使得l(W)+λl0(W)取最小值的表示矩阵,argminW代表求解使得l(W)+λl0(W)取最小值的该表示矩阵W*。
2.如权利要求1所述的训练方法,其中,一个所述组成元素为所述表示矩阵的一列。
3.如权利要求1所述的训练方法,其中,所述语料库中si和为正样本对,si和为负样本对,所述si、和经由所述表示矩阵W的表示分别为ri、和
所述正样本对si和的相似度表示为
所述负样本对si和的相似度表示为
所述正负样本相对差异表示部分表示为
其中,si、和分别代表所述语料库中的一条语料,ri、和分别代表si、和的表示向量,所述相似度表示指示两个所述表示向量之间的余弦相似度,μ为取值在0到1之间的惩罚系数,K是所述语料库中的样本数。
4.一种基于自然语言处理的自动问答方法,包括:
根据如权利要求1所述的训练方法执行训练,以获取语料库的表示集;
接收问题语句,并且根据所述表示集,获取所述问题语句的表示;以及
基于所述问题语句的表示,检索以获取所述问题语句的答案语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;腾讯云计算(北京)有限责任公司,未经腾讯科技(深圳)有限公司;腾讯云计算(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910258595.3/1.html,转载请声明来源钻瓜专利网。





