[发明专利]自然语言处理的训练方法、装置、自动问答方法和装置有效

申请号：	201910258595.3	申请日：	2019-04-01
公开（公告）号：	CN110162596B	公开（公告）日：	2023-07-14
发明（设计）人：	罗定嘉;翟铮	申请（专利权）人：	腾讯科技（深圳）有限公司;腾讯云计算（北京）有限责任公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/332;G06F40/211;G06F40/247;G06F18/22;G06F18/214
代理公司：	北京市柳沈律师事务所 11105	代理人：	张晓明
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自然语言处理训练方法装置自动问答
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于自然语言处理的训练方法，包括：

获取用于训练的语料库；

初始化所述语料库的表示集，所述表示集的每一组成元素表示所述语料库中一个词；

以所述表示集作为参数构造目标函数；以及

执行训练，调整所述表示集，获得训练后的所述表示集，所述训练后的所述表示集使得所述目标函数满足预定训练结束条件；

其中，所述目标函数包括正负样本相对差异表示部分，用于使得训练后所述语料库中的正样本和负样本满足预定收敛条件，

其中，所述预定训练结束条件为所述训练后的所述表示集使得所述目标函数最小化，并且所述预定收敛条件为所述语料库中的正样本和负样本在表示空间中的距离最大化，

其中，所述目标函数还包括正负样本绝对值表示部分，所述正负样本绝对值表示部分表示为：

所述目标函数L表示为：

L(W)＝l(W)+λl₀(W)

其中，所述表示集为表示矩阵W，所述训练使所述表示矩阵W满足：

W^*＝argmin_W(l(W)+λl₀(W))

其中，exp代表以e为底的指数函数，S_k表示对所述语料库中整体样本进行随机抽样得到的样本集合，λ表示所述正负样本相对差异表示部分l(W)和所述正负样本绝对值表示部分l₀(W)之间的权重，其取值在0到1之间，W*代表使得l(W)+λl₀(W)取最小值的表示矩阵，argmin_W代表求解使得l(W)+λl₀(W)取最小值的该表示矩阵W*。

2.如权利要求1所述的训练方法，其中，一个所述组成元素为所述表示矩阵的一列。

3.如权利要求1所述的训练方法，其中，所述语料库中s_i和为正样本对，s_i和为负样本对，所述s_i、和经由所述表示矩阵W的表示分别为r_i、和

所述正样本对s_i和的相似度表示为

所述负样本对s_i和的相似度表示为

所述正负样本相对差异表示部分表示为

其中，s_i、和分别代表所述语料库中的一条语料，r_i、和分别代表s_i、和的表示向量，所述相似度表示指示两个所述表示向量之间的余弦相似度，μ为取值在0到1之间的惩罚系数，K是所述语料库中的样本数。

4.一种基于自然语言处理的自动问答方法，包括：

根据如权利要求1所述的训练方法执行训练，以获取语料库的表示集；

接收问题语句，并且根据所述表示集，获取所述问题语句的表示；以及

基于所述问题语句的表示，检索以获取所述问题语句的答案语句。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载