[发明专利]一种基于加入文本信息的词向量的中文语法错误检测方法有效
| 申请号: | 201810741530.X | 申请日: | 2018-07-06 |
| 公开(公告)号: | CN108984525B | 公开(公告)日: | 2019-07-12 |
| 发明(设计)人: | 赵建博;李思;李明正;徐雅静 | 申请(专利权)人: | 北京邮电大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100876 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 词向量 文本信息 循环神经网络 语法错误检测 文本矩阵 错误性 中文 词语 前向神经网络 信息处理领域 上下文信息 错误位置 语法检测 文本化 向量化 再利用 推断 文本 重建 | ||
本发明公开了一种加入文本信息的词向量的中文语法错误检测方法及装置,属于信息处理领域。该方法的特征包括:先对输入的文本的词语进行向量化,形成文本矩阵;再利用循环神经网络形成各词向量相关的文本信息;重建文本矩阵;利用循环神经网络提取上下文信息;之后利用前向神经网络计算各个词语错误性得分;使用错误性得分推断错误位置。本发明通过结合基于文本化词向量,使得中文语法检测效果得到提升,具有很大的使用价值。
技术领域
本发明涉及信息处理领域,特别涉及一种基于神经网络的中文语法错误检测方法。
背景技术
由于中国的快速发展,越来越多的外国人开始学习中文,因此中文语法错误检测任务越来越受到人们的关注。中文语法错误检测任务的目的是判断非中文母语的人所写的文本是否有语法错误,并且给出错误信息。
当前大部分语法错误检测的模型都是使用序列标注的方式,模型通过计算,对文本中错误的词语进行标记,给出错误信息。常用的进行中文语法错误诊断的统计学习的方法有n-gram、机器学习的方法有循环神经网络的方法。但是这些网络都需要较多的人工特征来达到比较好的检测效果。近年来,神经网络运用开始变的热门,中文语法错误检测也开始利用神经网络。当前,大部分的已有的检测方法没有很好的利用中文词汇所表达的信息,忽略了中文中一词多义的现象。而本发明为了解决上述的问题,采用了循环神经网络得到各词向量相关的文本信息,再利用循环神经网络,得到了较好的错误检测效果。
发明内容
为了解决现有的技术问题,本发明提供了一种基于神经网络的中文语法错误检测方法。方案如下:
步骤一,我们将输入文本的每个词语都映射为相应的词向量,连接词向量,将输入的文本映射为一个文本矩阵。
步骤二,我们使用一个循环神经网络对文本矩阵进行处理,得到各词向量相关的文本信息。
步骤三,对文本矩阵使用各词向量相关的文本信息进行处理,得到加入文本信息的词向量表示的文本矩阵。
步骤四,我们对加入文本信息的词向量表示的文本矩阵利用循环神经网络进行处理,得到文本中各个词向量对应的特征表示。
步骤五,我们对文本中各个词向量对应的特征表示进行处理,特征表示经过一个前向神经网络得到各个词语的错误性得分;
步骤六,在整个文本层面对各个词语的错误性得分进行推断,得到错误词语的相关信息。
附图说明
图1是本发明提供的中文语法错误检测的网络结构图
图2为长短期记忆网络单元的内部结构图
具体实施方式
接下来将对本发明的实施方案作更详细的描述。
图1是本发明提供的错误检测方法的网络结构图,其中包括:
步骤S1:文本词语的向量化;
步骤S2:循环神经网络形成各词向量相关的文本信息;
步骤S3:文本矩阵重建;
步骤S4:循环神经网络提取上下文信息;
步骤S5:前向神经网络计算各个词语错误性得分;
步骤S6:使用错误性得分推断错误位置;
下面将对每个步骤进行具体的说明:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810741530.X/2.html,转载请声明来源钻瓜专利网。





