[发明专利]自动问答方法、装置、电子设备和存储介质有效
| 申请号: | 201910584837.8 | 申请日: | 2019-07-01 |
| 公开(公告)号: | CN110309285B | 公开(公告)日: | 2022-03-29 |
| 发明(设计)人: | 郭建廷;岳聪 | 申请(专利权)人: | 出门问问信息科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/289;G06F40/295 |
| 代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
| 地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自动 问答 方法 装置 电子设备 存储 介质 | ||
公开了一种自动问答方法、装置、电子设备和存储介质。通过预训练的分类模型和分类规则判断待分类问题是否属于叠字类问题,进而在叠字信息数据库中获取叠字类问题的答案。由此,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。
技术领域
本发明涉及问答系统领域,尤其涉及一种自动问答方法、装置、电子设备和存储介质。
背景技术
叠字是汉字中以多个完全相同的字组成的一类字,叠字中重复的汉字为重复单字,叠字中重复单字的个数为重复次数。例如,“森”是一个叠字,它的重复单字是“木”,重复次数是“三”。叠字类问题是能够从问题中解析出重复单字以及重复单字的重复次数,并且问题的答案是一个叠字的问题。例如,“三个木是什么字?”、“四个火焰的火组成的字是什么?”以及“众是由几个人组成?”等。
问答系统(Question Answer,QA)是信息检索系统的一种高级形式,能够用准确、简洁的自然语言回答用户用自然语言提出的问题。
在现有的问答系统中,由于对于识别叠字类问题的算法设置比较简单,使得系统并不能较为准确地、快速地识别叠字类问题。如果不是叠字类的问题被错误识别为叠字类问题,则会进行之后解析问题的流程,可能会造成回答错误或者使问答系统给出回答的时间变长。
发明内容
有鉴于此,本发明的目的在于提供一种自动问答方法、装置、电子设备和存储介质,可以较为准确地确定识别叠字类问题,提高获取叠字类问题答案的准确性和减少获取答案的时间。
第一方面,本发明实施例公开了一种自动问答方法,所述方法包括:
获取待分类问题;
通过预训练的分类模型和分类规则确定所述待分类问题的类别,所述类别包括叠字类问题和非叠字类问题;以及
响应于所述待分类问题的类别为叠字类问题,在叠字信息数据库中获取所述叠字类问题的答案;
其中,所述分类模型的训练过程为:
获取第一训练集,所述第一训练集包括多个叠字类问题和对应的第一标签;
获取第二训练集,所述第二训练集包括多个非叠字类问题和对应的第二标签;以及
根据所述第一训练集和所述第二训练集按照机器学习算法训练获取分类模型。
优选地,所述分类规则包括待分类问题的文本信息的最大字数阈值、最小字数阈值、相同字符的重复次数、实体人名包含状态和英文字母包含状态中的至少一种。
优选地,所述机器学习算法为最大熵算法、支持向量机算法或者神经网络分类算法。
优选地,所述叠字信息数据库包括多个叠字的信息,所述叠字的信息包括重复次数、重复单字和目标叠字。
优选地,根据所述分类模型和分类规则确定待分类问题的类别包括:
根据所述分类规则对所述待分类问题进行筛选;以及
根据所述分类模型对筛选后的待分类问题分类确定所述待分类问题的类别。
优选地,根据所述分类模型和分类规则确定待分类问题的类别包括:
根据所述分类模型对待分类问题分类确定所述待分类问题的类别;以及
根据所述分类规则对分类后的待分类问题进行筛选。
优选地,根据所述分类模型和分类规则确定待分类问题的类别包括:
根据分类模型获取待分类问题的第一概率,所述第一概率为所述待分类问题为叠字类问题的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于出门问问信息科技有限公司,未经出门问问信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910584837.8/2.html,转载请声明来源钻瓜专利网。





