[发明专利]一种面向在线问答平台的基于深度强化学习的问题标注方法在审

申请号：	201811615274.6	申请日：	2018-12-27
公开（公告）号：	CN109710741A	公开（公告）日：	2019-05-03
发明（设计）人：	兰秉良	申请（专利权）人：	中山大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/36
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510260 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	强化学习标注标签神经网络在线问答尾标签匹配多样性创新性地模型训练设计模型问答平台综合考虑置信度构建保证衡量引入奖励
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向在线问答平台的基于深度强化学习的问题标注方法，其特征在于，包括以下步骤：

S1：利用MDP马尔科夫决策过程对问题构建Q-learning强化学习模型；

S2：搭建深度神经网络优化训练Q值；所述的Q值表示Q-learning强化学习模型中在状态s动作后获取的得分奖励；

S3：利用训练集训练深度强化学习模型；

S4：根据深度强化学习模型输出结果对问题进行标签标注。

2.根据权利要求1所述的问题标注方法，其特征在于，所述的S1中的MDP马尔科夫决策过程定义为Μ＝<S,A,R,P,γ＞，其中，

所述的S表示问题以及其当前所标注的标签的集合，通过下式进行表达：S＝{Q,i₀,i₁...i_t}

式中，所述的t表示当前的状态值，所述的t-1表示上一个状态；所述的Q表示需要打标签的问题，所述的i表示问题对应的标签；

所述的A表示空间，指动作a_t针对智能体的策略π所做出的一个推荐的标签，π是S_t到a_t的一个映射，且每次动作推荐一个标签；

所述的P表示了概率转移矩阵，指智能体采取了a_t动作以后，从S_t转移到S_t+1的概率，所述的智能体表示强化学习的算法主体；

所述的R表示奖励函数，指智能体在s_t采取了一个动作a_t以后，对标签多样性的评价函数；

所述的γ表示未来动作所得到的奖励对当前状态值的影响程度。

3.根据权利要求2所述的问题标注方法，其特征在于，所述的R通过下式进行表达：

式中，所述的f(i_t)对应的是NDCG值，通过下式进行表达：

所述的rel是该标签的相关性值，所述的i表示标签所在的当前位置大的序号，所述的k为智能体的参考的标签数量，所述的m表示标签所在的当前位置序号；

所述的τ(i_t)对应的是α-NDCG值，是NDCG值的变形，表示标签如果含有新发现的子话题，则α-NDCG值增加；如果含有无关的子话题则α-NDCG值降低，所述的τ(i_t)通过下式进行表达：

所述的NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分，所述的α为影响系数，所述的NG^*(i)标签i在理想情况下的最优得分值。

4.根据权利要求1至3中任一权利要求所述的问题标注方法，其特征在于，所述的Q值通表示在状态s采取动作后能获取的期望得分奖励，所述的μ是Q-learning过程中的学习率，所述的是智能体模拟的下个动作能得到的最大得分值。

5.根据权利要求4所述的问题标注方法，其特征在于，所述的S2包括以下流程：

S2.1：构造深度卷积网络，用于对Q值进行初步计算；通过输入固定格式的问题和标签数据，经卷积层以及全连接层，最后输出每一个标签的预计收益a；

S2.2：构造回放经验池，通过记录训练过程中所有的样本＜s_t,a_t,r_t,s_t+1＞，每一个样本定义为一个经验，存入经验池中，网络学习从经验池中均匀抽出样本进行学习；

S2.3：定义一个实时更新的深度神经网络，记为Q(s,a；θ)，所述的θ为神经网络的网络参数值；另外定义一个与Q(s,a；θ)相同结构的深度神经网络，但是参数相隔时间C从实时更新的深度神经网络中同步一次，记为所述的θ^-为神经网络的网络参数值；所述的C是人为预设值；将定义为TD-target，第一个神经网络的网络更新为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811615274.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于商品信息的机器人自动聊天方法
下一篇：一种个股公告自然语言查询处理的方法、系统及设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向在线问答平台的基于深度强化学习的问题标注方法在审

专利文献下载