[发明专利]获得讯询问话题分类模型、讯询问话题分类的方法和装置有效
| 申请号: | 201911422174.6 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111159360B | 公开(公告)日: | 2022-12-02 |
| 发明(设计)人: | 杨帆;方磊;方四安;方昕;徐承 | 申请(专利权)人: | 合肥讯飞数码科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06Q50/26 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 获得 询问 话题 分类 模型 方法 装置 | ||
1.一种获得讯询问话题分类模型的方法,其特征在于,包括:
对样本讯询问笔录中样本问答对进行自然语言预处理,获得各个样本问句分词和各个样本答句分词;
获得各个所述样本问句分词的词向量,分别拼接各个所述样本问句分词的词向量与其对应的各个贡献度得分获得第一矩阵;获得各个所述样本答句分词的词向量;分别拼接各个所述样本答句分词的词向量与其对应的各个贡献度得分获得第二矩阵;
拼接所述第一矩阵和所述第二矩阵获得第三矩阵;
基于所述第三矩阵和权重向量,获得所述样本问答对的特征向量;所述权重向量是基于所述第三矩阵的转置矩阵获得的;
基于所述特征向量和预设激活函数,获得所述样本问答对的预测话题类别;
根据所述预测话题类别和标记话题类别,训练所述基于注意力机制的卷积神经网络中网络参数,获得所述讯询问话题分类模型;
其中,所述样本问答对的获得步骤,包括:
基于所述样本讯询问笔录的预设格式,删除所述样本讯询问笔录中无关讯询问的笔录信息;
基于样本讯询问笔录的预设句法模式,分割所述样本讯询问笔录获得所述样本问答对。
2.根据权利要求1所述的方法,其特征在于,各个所述贡献度得分的获得步骤包括:
基于各个所述样本问句分词和各个所述样本答句分词,利用词频-逆文件频率算法获得每个分词的贡献度得分;
基于预设词表去除各个所述分词的贡献度得分中无关话题分词的贡献度得分,获得各个所述贡献度得分。
3.根据权利要求1所述的方法,其特征在于,所述对样本讯询问笔录中样本问答对进行自然语言预处理,获得样本问句分词和对应的样本答句分词,包括:
对所述样本讯询问笔录中样本问答对进行分词处理,获得各个问句分词和各个答句分词;
对各个所述问句分词和各个所述答句分词中符合预设实体类型的实体名词进行预设实体类型字符替换处理,获得各个所述样本问句分词和各个所述样本答句分词;所述预设实体类型包括数字、时间、人名、地名和/或机构名称。
4.根据权利要求3所述的方法,其特征在于,若所述预设实体类型为数字和/或时间,所述预设实体类型字符替换处理为基于规则匹配的预设实体类型字符替换处理;若所述预设实体类型为人名、地名和/或机构名称,所述预设实体类型字符替换处理为基于命名实体预测的预设实体类型字符替换处理。
5.一种讯询问话题分类的方法,其特征在于,包括:
对待分类讯询问笔录中待分类问答对进行自然语言预处理,获得各个待分类问句分词和各个待分类答句分词;
将各个所述待分类问句分词及其对应的各个贡献度得分和各个待分类答句分词及其对应的各个贡献度得分输入讯询问话题分类模型,获得所述待分类问答对的预测话题类别和预测概率;
基于所述待分类问答对的预测话题类别和预测概率,确定所述待分类问答对的目标话题类别;
其中,所述讯询问话题分类模型是根据权利要求1-4任一项所述方法获得的。
6.根据权利要求5所述的方法,其特征在于,还包括:
获得所述待分类讯询问笔录的案由信息对应的话题类别集合;
对应地,所述基于所述待分类问答对的预测话题类别和预测概率,确定所述待分类问答对的目标话题类别,具体为:
基于所述待分类问答对的预测话题类别和预测概率,结合所述话题类别集合确定所述待分类问答对的所述目标话题类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥讯飞数码科技有限公司,未经合肥讯飞数码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911422174.6/1.html,转载请声明来源钻瓜专利网。





