[发明专利]用于自动问答系统的问答排序模型更新方法及装置有效
| 申请号: | 201510007045.6 | 申请日: | 2015-01-07 | 
| 公开(公告)号: | CN104572998B | 公开(公告)日: | 2017-09-01 | 
| 发明(设计)人: | 薛锐青 | 申请(专利权)人: | 北京云知声信息技术有限公司 | 
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 | 
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙)11447 | 代理人: | 南毅宁,桑传标 | 
| 地址: | 100191 北京市海*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 自动 问答 系统 排序 模型 更新 方法 装置 | ||
技术领域
本发明涉及自动问答领域,具体地,涉及一种用于自动问答系统的问答排序模型更新方法及装置。
背景技术
自动问答系统是一种能够自动回答问题的系统。该系统可以计算出用户输入的问题与问答库中的候选问答对之间的各种特征,例如,词频、逆向词频、空间向量模型等等。然后,利用问答排序模型,根据所计算出的特征、以及各特征的权值,得出问题与候选答案对之间的匹配度,再根据该匹配度对候选问答对进行排序,并将排名靠前的问答对返回给用户。
在现有的自动问答系统中,上面提到的每种特征的权值,一般由开发人员根据经验或先验知识进行设定。一旦需要更新问答排序模型,则需要开发人员手动调整特征权值,这就大大增加开发人员的维护工作量,并且效率低,维护成本高。
此外,现有的问答排序模型更新机制中,没有引入用户反馈数据。这就导致问答排序模型不能及时地按照用户的需求进行更新,也就无法更好地拟合用户意图。
发明内容
本发明的目的是提供一种用于自动问答系统的排序模型更新方法及装置,该方法和装置能够基于用户反馈信息,利用机器学习方法自动更新问答排序模型。
为了实现上述目的,本发明提供一种用于自动问答系统的问答排序模型更新方法,该方法包括:获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集;根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集;确定每个训练样本的特征参数集;根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及根据所构建的排序训练数据更新所述问答排序模型。
优选地,所述交互行为包括以下中的一者:点击所述问答集列表中排名非第一的问答集、或者未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集。
优选地,在所述反馈信息表征点击所述问答集列表中排名非第一的问答集的交互行为的情况下,将所述用户查询与所点击的问答集的构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中排在所点击的问答集之前的每个问答集一一构建为训练样本,并将该训练样本标注为负例;以及在所述反馈信息表征未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,将所述用户查询与主动添加的问答集构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中的每个问答集一一构建为训练样本,并将该训练样本标注为负例。
优选地,该方法还包括:将所述主动添加的问答集更新到问答库中。
优选地,所述特征参数集包括相关性特征参数子集和重要性特征参数子集。
优选地,每个问答集包括标准问题、标准答案、扩展问题及扩展答案;以及确定每个训练样本的特征参数集的步骤包括:针对每个训练样本,分别计算该训练样本中的用户查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及将所述训练样本的所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
优选地,该方法还包括:在确定每个训练样本的特征参数集之前,先对每个训练样本进行清洗,以筛除无效训练样本,之后,再确定经清洗后未被筛除的每个训练样本的特征参数集。
本发明还提供一种用于自动问答系统的问答排序模型更新装置,该装置包括:用户检索日志挖掘模块,用于获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集;训练样本构建模块,用于根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集;特征计算模块,用于确定每个训练样本的特征参数集;以及问答排序模型训练更新模块,用于根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及根据所构建的排序训练数据更新所述问答排序模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510007045.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结晶聚合物相变过程的原位检测方法
- 下一篇:智能插座





