[发明专利]一种生成问答的方法、装置、设备和计算存储介质有效
| 申请号: | 201810120655.0 | 申请日: | 2018-02-07 |
| 公开(公告)号: | CN108491421B | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 黄际洲;孙雅铭 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 生成 问答 方法 装置 设备 计算 存储 介质 | ||
1.一种生成问答的方法,其特征在于,该方法包括:
将图像输入预先训练得到的问题生成模型,获取所述问题生成模型输出的针对所述图像的问题;
对所述问题进行实体和属性识别,得到所述问题的实体和属性;
利用知识图谱查询所述实体的所述属性的值,作为所述问题的答案;
其中所述问题生成模型采用如下方式训练得到:
从历史搜索日志中获取训练数据,所述训练数据包括问题型query以及该问题型query对应的被点击搜索结果包含的图像;
将训练数据中的图像作为输入、对应的问题型query作为输出,训练神经网络模型,得到问题生成模型;
其中,所述问题生成模型中的编码子系统将输入的图像映射至语义空间,得到图像的语义向量;所述问题生成模型中的解码子系统基于所述图像的语义向量预测词序列,得到图像的问题。
2.根据权利要求1所述的方法,其特征在于,所述编码子系统包括CNN,所述解码子系统包括RNN。
3.根据权利要求1所述的方法,其特征在于,所述获取训练数据包括:
从搜索日志中获取搜索次数大于或等于预设搜索次数阈值,或获取搜索频率大于或等于预设搜索频率阈值的问题型query。
4.根据权利要求1所述的方法,其特征在于,所述获取训练数据包括:
从搜索日志中获取问题型query对应的被点击搜索结果包含的图像中,被点击次数超过预设次数阈值的图像,作为训练数据中所述问题型query对应的图像。
5.根据权利要求1所述的方法,其特征在于,对所述问题进行实体和属性识别,得到所述问题的实体和属性包括:
对所述问题进行实体和属性识别;
将所述识别出的实体和属性映射至知识图谱中的表达,得到所述问题的实体和属性。
6.根据权利要求5所述的方法,其特征在于,将所述识别出的实体和属性映射至知识图谱中的表达包括:
从所述知识图谱中抽取出所述识别出的实体对应的候选实体,以及识别出的属性对应的候选属性;
利用预先建立的排序模型,对所述候选实体和候选属性分别进行排序;
将排在首位的候选实体和候选属性分别确定为映射至知识图谱中的实体和属性。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
查询问答类搜索日志,获取所述问题对应的被点击搜索结果;
从所述被点击搜索结果中提取对所述答案的解释。
8.根据权利要求7所述的方法,其特征在于,所述查询问答类搜索日志,获取所述问题对应的被点击搜索结果包括:
对所述问题进行同义扩展,得到一个以上的问题表达;
查询问答类搜索日志,分别获取所述一个以上的问题表达对应的被点击搜索结果。
9.根据权利要求1所述的方法,其特征在于,该方法还包括:
利用所述问题的实体、所述属性以及所述答案,查询知识图谱,获取所述问题的干扰答案。
10.根据权利要求9所述的方法,其特征在于,利用所述实体、所述属性以及所述答案,查询知识图谱,获取所述问题的干扰答案包括:
查询知识图谱,确定与所述问题的实体之间不存在所述属性的关联、且与所述答案存在关联的其他实体;
利用确定出的其他实体,得到所述问题的干扰答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810120655.0/1.html,转载请声明来源钻瓜专利网。





