[发明专利]一种基于文本纠错与神经网络的中文问句分类方法有效
| 申请号: | 201910801515.4 | 申请日: | 2019-08-28 |
| 公开(公告)号: | CN110516070B | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 杨一何;刘晋 | 申请(专利权)人: | 上海海事大学 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/04 |
| 代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
| 地址: | 201306 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 纠错 神经网络 中文 问句 分类 方法 | ||
本发明公开了一种基于文本纠错与神经网络的中文问句分类方法,所述方法包括:获取中文问句文本数据;对文本数据进行纠错,获得纠错后文本数据;对纠错后文本数据进行预处理,获得中文问句矩阵向量;将中文问句矩阵向量输入至双向门控循环单元层,获得中间语义矩阵向量;根据与中间语义矩阵向量对应的注意力权值,获得注意力矩阵向量;将注意力矩阵向量输入至卷积神经网络层,获得全局特征矩阵向量;将全局特征矩阵向量输入至全连接层,获得各个类别的概率分布;基于所述概率分布,获得中文问句分类结果。应用本发明实施例,首先将输入问句进行纠错,然后再结合双向门控循环单元网络模型、注意力机制及卷积神经网络模型,从而使分类更加准确。
技术领域
本发明涉及智能信息处理和计算机技术领域,尤其涉及一种基于文本纠错与神经网络的中文问句分类方法。
背景技术
随着互联网时代科技迅速发展,大量数据涌入,通过搜索引擎搜索关键字词需要对返回的结果进行手动筛选,对用户来说耗时耗力。而通过问答系统能迅速的获取用户的意图,可以在成百上千的候选答案中返回给用户最准确的答案。
中文问句分类是问答系统的首要步骤,并且是问答系统实现精准回答的关键技术之一,通过对中文问句的分类,问答系统能够有效缩小答案的范围并且决定问句处理的方式,使得问答系统的答案更加准确可靠。
目前对于中文问句分类方法的研究,主要有三种:一种是基于规则匹配、特征提取的方法,另一种是基于传统机器学习的方法,最后一种是基于深度学习的方法。其中,基于规则匹配、特征提取的方法针对不同中文问句的特征定义一套规则,通过分析中文问句与规则的匹配程度来实现对中文问句的分类,这种方法很难对于不同领域的中文问句提出一套通用的规则,因此,这种方法具有很大的局限性。而基于机器学习的中文问句分类方法有许多种,常用的有包括朴素贝叶斯分类,支持向量机分类等等,但仍然需要主动提取特征,对于中文问句分类仍然具有一定的主观性。基于深度学习的中文问句分类方法也有许多种包括基于卷积神经网络分类、基于循环神经网络分类等等,基于深度学习方法的中文问句分类相较于以往的方法,准确率有了较大的提升。目前的研究与应用证明基于循环神经网络如长短期记忆、双向门控循环单元等更能够学习中文问句的上下语义信息,但不擅长提取关键信息等局部特征。而基于卷积神经网络更能够学习句子中的局部特征,提取句子中的关键信息,但会遗漏词语的位置信息。目前中文问句的分类种类繁多,单一分类方法的分类效果在实践中仍然不能完全满足要求,并且目前的研究很少有能充分利用循环神经网络与卷积神经网络的优势。
此外,目前大多数利用深度学习神经网络进行中文问句分类的方法,几乎没有考虑输入问句存在语病、多字、别字等情况,都一并作为模型的输入进行预测或训练,这样会导致训练的模型针对类似问句存在较大的偏差,导致预测错误。
因此,目前中文问句分类存在着因输入问句存在语病、别字、多字等,以及现有分类方法单一的固有缺陷而导致分类准确率不够高的问题。
发明内容
本发明的目的在于提供一种基于文本纠错与神经网络的中文问句分类方法,旨在解决现有的因输入问句存在语病、别字、多字以及现有分类方法单一的固有缺陷,而导致分类准确率不够高的问题。
为了实现上述目的,本发明提供一种基于文本纠错与神经网络的中文问句分类方法,所述方法包括:
获取中文问句文本数据;
对所述文本数据进行纠错,获得纠错后文本数据;
对所述纠错后文本数据进行预处理,获得中文问句矩阵向量;
将所述中文问句矩阵向量输入至双向门控循环单元层,获得中间语义矩阵向量;
根据与所述中间语义矩阵向量对应的注意力权值,获得注意力矩阵向量;
将所述注意力矩阵向量输入至卷积神经网络层,获得全局特征矩阵向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910801515.4/2.html,转载请声明来源钻瓜专利网。





