[发明专利]一种问答对分类模型的训练方法和装置在审
| 申请号: | 201611249261.2 | 申请日: | 2016-12-29 |
| 公开(公告)号: | CN106844530A | 公开(公告)日: | 2017-06-13 |
| 发明(设计)人: | 庞伟 | 申请(专利权)人: | 北京奇虎科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 赵娟 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 答对 分类 模型 训练 方法 装置 | ||
技术领域
本发明涉及计算机处理的技术领域,特别是涉及一种问答对分类模型的训练方法和一种问答对分类模型的训练装置。
背景技术
目前,网络上具有许多互动式的问答平台,用户在问答平台上提出自己的问题,问答平台发动其他用户来回答,解决提问者的疑问。
问答平台积累了大量的用户,产生海量的问答对数据(即问题与答案),其中,问答对数据的质量有高有低,一个低质量的问答对数据的价值较低,影响用户体验,而高质量的问答对数据,是问答平台的重要数据资源。
为挖掘出高质量的问答对数据,传统的方法是基于人工策略计算质量分,通过提问者或其他用户对答案的反馈信息设计一个策略,来判定问答对数据的质量。
例如,在问答平台上设置互动按钮,赞标签和踩标签,供其他用户交互,当提问者把答案设置为“最佳答案”,或者,赞标签被点击的数量超过踩标签被点击的数量时,可以判定这个答案是一个质量较好的答案。
但是,人工策略利用的特征信息少,用户主动反馈率低,依赖提问者的主观判断,广告作弊现象严重,用户对新的问答对数据和历史的问答对数据的反馈信息不平衡导致策略不稳定,导致问答对数据的准确率较低。
尤其是,新产生的问答对数据,因为缺少用户反馈,问答对数据的准确率更低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种问答对分类模型的训练方法和相应的一种问答对分类模型的训练装置。
依据本发明的一个方面,提供了一种问答对分类模型的训练方法,包括:
获取问答对数据;
从所述问答对数据中提取问答对特征;
根据所述问答对数据的质量对所述问答对数据标注分类标签;
采用所述问答对特征与所述分类标签训练问答对分类模型。
可选地,所述问答对特征包括如下的一种或多种:
提问者特征、回答者特征、问答对文本语义特征、问答对数字特征、用户反馈特征。
可选地,所述问答对数据包括问题与答案,所述问答对文本语义特征包括问答对配对特征;
所述从所述问答对数据中提取问答对特征的步骤包括:
查找所述问题中的词项与所述答案中的词项共现的词对;
统计所述共现的词对的数量,作为问答对配对特征。
可选地,所述问答对数据包括问题与答案,所述问答对文本语义特征包括问答对最小路由距离;
所述从所述问答对数据中提取问答对特征的步骤包括:
从所述问题中提取关键词,生成问题关键词集合;
从所述答案中提取关键词,生成答案关键词集合;
计算所述问题关键词集合和所述答案关键词集合之间相似度;
将所述相似度进行累积,获得问答对最小路由距离。
可选地,所述问答对数据包括问题与答案,所述问答对文本语义特征包括问答对句子相似度;
所述从所述问答对数据中提取问答对特征的步骤包括:
将所述问题转换为第一句子向量;
将所述答案转换为第二句子向量;
计算所述第一句子向量与所述第二句子向量之间的相似度,作为问答对句子相似度。
可选地,所述根据所述问答对数据的质量对所述问答对数据标注分类标签的步骤包括:
查找搜索所述问答对数据时记录的搜索记录数据;
根据所述搜索记录数据对所述问答对数据标注分类标签。
可选地,所述根据所述搜索记录数据对所述问答对数据标注分类标签的步骤包括:
挖掘所述问答对数据在搜索关键词下的平均点击权重;
挖掘所述问答对数据在搜索关键词下的最后一次点击权重;
采用所述平均点击权重和所述最后一次点击权重拟合连续分值;
将所述连续分值离散化为分类标签。
可选地,所述挖掘所述问答对数据在搜索关键词下的平均点击权重的步骤包括:
记录所述问答对数据所属网页的地址;
计算所述地址在指定的搜索关键词下的点击分值;
采用所述点击分值计算所述地址在指定的搜索关键词下的点击分值分布信息;
采用所述点击分值分布信息计算所述问答对数据在搜索关键词下的平均点击权重。
可选地,所述计算所述地址在指定的搜索关键词下的点击分值的步骤包括:
统计所述地址在指定的关键词下的点击次数;
统计指定的关键词的搜索次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611249261.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种挖泥船燃油滤器甩净机
- 下一篇:一种烟尘净化系统





