[发明专利]获得讯询问话题分类模型、讯询问话题分类的方法和装置有效
| 申请号: | 201911422174.6 | 申请日: | 2019-12-31 |
| 公开(公告)号: | CN111159360B | 公开(公告)日: | 2022-12-02 |
| 发明(设计)人: | 杨帆;方磊;方四安;方昕;徐承 | 申请(专利权)人: | 合肥讯飞数码科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06Q50/26 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 获得 询问 话题 分类 模型 方法 装置 | ||
本申请公开了一种获得讯询问话题分类模型、讯询问话题分类的方法和装置,该方法包括:首先,对样本讯询问笔录中样本问答对进行自然语言预处理,获得各个样本问句分词和各个样本答句分词;然后,根据各个样本问句分词及其对应的各个贡献度得分、各个样本答句分词及其对应的各个贡献度得分和样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型。由此可见,通过贡献度得分增加样本问答对的话题类别信息,加强讯询问话题分类的训练;且利用基于注意力机制的卷积神经网络,能够充分学习“强话题”分词与话题类别之间的关系,使得讯询问话题分类模型的话题分类效果更好,提高后续讯询问话题分类的正确率。
技术领域
本申请涉及数据分析技术领域,尤其涉及一种获得讯询问话题分类模型、讯询问话题分类的方法和装置。
背景技术
讯询问笔录作为贯穿案件的重要破案和定罪依据,为了避免工作人员人为从其中提取并标注要素信息,需要自动完成讯询问笔录的内容结构化,即,自动对讯询问笔录中问答对进行话题分类。
目前,针对讯询问笔录中问答对,一般采用基于机器学习的话题分类方法进行话题分类,具体是指对讯询问笔录中问答对进行特征提取,将提取到的问答对特征输入到简单分类模型中进行参数训练和分类预测。
但是,发明人经过研究发现,基于机器学习的话题分类方法正确率很低,实际经过讯询问笔录中问答对测试,分类正确率较低,有的仅可达到40%左右,完全无法达到实际可用的程度。
发明内容
有鉴于此,本申请实施例提供一种获得讯询问话题分类模型、讯询问话题分类的方法和装置,使得讯询问话题分类模型的话题分类效果更好,从而提高后续讯询问话题分类的正确率。
第一方面,本申请实施例提供了一种获得讯询问话题分类模型的方法,该方法包括:
对样本讯询问笔录中样本问答对进行自然语言预处理,获得各个样本问句分词和各个样本答句分词;
根据各个所述样本问句分词及其对应的各个贡献度得分、各个所述样本答句分词及其对应的各个贡献度得分和所述样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型。
可选的,所述根据各个所述样本问句分词及其对应的各个贡献度得分、各个所述样本答句分词及其对应的各个贡献度得分和所述样本问答对的标记话题类别,训练基于注意力机制的卷积神经网络获得讯询问话题分类模型,包括:
基于各个所述样本问句分词及其对应的各个贡献度得分获得第一矩阵;基于各个所述样本答句分词及其对应的各个贡献度得分获得第二矩阵;
拼接所述第一矩阵和所述第二矩阵获得第三矩阵;
基于所述第三矩阵和权重向量,获得所述样本问答对的特征向量;所述权重向量是基于所述第三矩阵的转置矩阵获得的;
基于所述特征向量和预设激活函数,获得所述样本问答对的预测话题类别;
根据所述预测话题类别和所述标记话题类别,训练所述基于注意力机制的卷积神经网络中网络参数,获得所述讯询问话题分类模型。
可选的,所述基于各个所述样本问句分词及其对应的各个贡献度得分获得第一矩阵,包括:
获得各个所述样本问句分词的词向量;
分别拼接各个所述样本问句分词的词向量与其对应的各个贡献度得分,获得所述第一矩阵;
所述基于各个所述样本答句分词及其对应的各个贡献度得分获得第二矩阵,包括:
获得各个所述样本答句分词的词向量;
分别拼接各个所述样本答句分词的词向量与其对应的各个贡献度得分,获得所述第二矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥讯飞数码科技有限公司,未经合肥讯飞数码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911422174.6/2.html,转载请声明来源钻瓜专利网。





