[发明专利]一种面向在线问答平台的基于深度强化学习的问题标注方法在审
申请号: | 201811615274.6 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109710741A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 兰秉良 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 标注 标签 神经网络 在线问答 尾标签 匹配 多样性 创新性地 模型训练 设计模型 问答平台 综合考虑 置信度 构建 保证 衡量 引入 奖励 | ||
1.一种面向在线问答平台的基于深度强化学习的问题标注方法,其特征在于,包括以下步骤:
S1:利用MDP马尔科夫决策过程对问题构建Q-learning强化学习模型;
S2:搭建深度神经网络优化训练Q值;所述的Q值表示Q-learning强化学习模型中在状态s动作后获取的得分奖励;
S3:利用训练集训练深度强化学习模型;
S4:根据深度强化学习模型输出结果对问题进行标签标注。
2.根据权利要求1所述的问题标注方法,其特征在于,所述的S1中的MDP马尔科夫决策过程定义为Μ=<S,A,R,P,γ>,其中,
所述的S表示问题以及其当前所标注的标签的集合,通过下式进行表达:S={Q,i0,i1...it}
式中,所述的t表示当前的状态值,所述的t-1表示上一个状态;所述的Q表示需要打标签的问题,所述的i表示问题对应的标签;
所述的A表示空间,指动作at针对智能体的策略π所做出的一个推荐的标签,π是St到at的一个映射,且每次动作推荐一个标签;
所述的P表示了概率转移矩阵,指智能体采取了at动作以后,从St转移到St+1的概率,所述的智能体表示强化学习的算法主体;
所述的R表示奖励函数,指智能体在st采取了一个动作at以后,对标签多样性的评价函数;
所述的γ表示未来动作所得到的奖励对当前状态值的影响程度。
3.根据权利要求2所述的问题标注方法,其特征在于,所述的R通过下式进行表达:
式中,所述的f(it)对应的是NDCG值,通过下式进行表达:
所述的rel是该标签的相关性值,所述的i表示标签所在的当前位置大的序号,所述的k为智能体的参考的标签数量,所述的m表示标签所在的当前位置序号;
所述的τ(it)对应的是α-NDCG值,是NDCG值的变形,表示标签如果含有新发现的子话题,则α-NDCG值增加;如果含有无关的子话题则α-NDCG值降低,所述的τ(it)通过下式进行表达:
所述的NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分,所述的α为影响系数,所述的NG*(i)标签i在理想情况下的最优得分值。
4.根据权利要求1至3中任一权利要求所述的问题标注方法,其特征在于,所述的Q值通表示在状态s采取动作后能获取的期望得分奖励,所述的μ是Q-learning过程中的学习率,所述的是智能体模拟的下个动作能得到的最大得分值。
5.根据权利要求4所述的问题标注方法,其特征在于,所述的S2包括以下流程:
S2.1:构造深度卷积网络,用于对Q值进行初步计算;通过输入固定格式的问题和标签数据,经卷积层以及全连接层,最后输出每一个标签的预计收益a;
S2.2:构造回放经验池,通过记录训练过程中所有的样本<st,at,rt,st+1>,每一个样本定义为一个经验,存入经验池中,网络学习从经验池中均匀抽出样本进行学习;
S2.3:定义一个实时更新的深度神经网络,记为Q(s,a;θ),所述的θ为神经网络的网络参数值;另外定义一个与Q(s,a;θ)相同结构的深度神经网络,但是参数相隔时间C从实时更新的深度神经网络中同步一次,记为所述的θ-为神经网络的网络参数值;所述的C是人为预设值;将定义为TD-target,第一个神经网络的网络更新为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811615274.6/1.html,转载请声明来源钻瓜专利网。