[发明专利]一种基于LSTM的中文文本语法纠错模型方法有效

申请号：	201910168386.X	申请日：	2019-03-06
公开（公告）号：	CN109948152B	公开（公告）日：	2020-07-17
发明（设计）人：	段大高;赵振东;梁少虎;韩忠明	申请（专利权）人：	北京工商大学
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/253;G06N3/04;G06N3/08
代理公司：	北京东方盛凡知识产权代理事务所(普通合伙) 11562	代理人：	张雪
地址：	100089***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lstm 中文文本语法纠错模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于LSTM的中文文本语法纠错模型的方法，首先收集大量的中文文本语料用以计算5‑gram语言模型，保存的语言模型将会用作数据处理过程和模型输出的结果选择，然后收集语法纠错平行语料数据，语法纠错平行语料数据用作训练LSTM神经网络模型，实现模型对错误句子到正确句子的序列翻译过程；其次用保存好的5‑gram语言模型对平行语料数据进行预处理，修改掉明显的错误，最后构建LSTM神经网络并用预处理后的数据进行训练，训练结束保存网络参数，并用已训练好的网络，输出语法正确的文本序列。本发明数据容易获取，过程简单有效，LSTM神经网络自动抽取抽象特征，完成语法纠错任务，算法效率和准确度都相对较高，应用于中文学习过程和语音识别后端处理。

技术领域

本发明涉及基于LSTM的中文文本语法纠错模型的方法，它应用于中文语言学习和语音识别后端数据处理等任务，属于数据挖掘与自然语言处理技术领域。

背景技术

汉语是目前使用人数最多的语言。随着经济全球化和中国影响力的不断提升，越来越多外国人士学习汉语。汉语也被称为世界上最古老和最复杂的语言之一。汉语的复杂性也给很多汉语学习者造成了很大困难，一个有效的中文语法纠错系统可以为学习者提供及时的纠错反馈，在汉语学习过程中有重要的应用价值。当前语音识别技术取得飞速发展，而由于汉语的发音组合灵活多变也造成了语音识别出的结果有时不符合语法规则，而一个有效的语法纠错系统对语音识别结果的改善同样具有极高的应用价值。汉语语法错误通常被划分为四个类别：词语冗余、词语缺失、词序紊乱和选词错误。由于输入待纠正句子和输出纠错后的句子不一定是长度是一致的，所以将语法纠错视为一个错误序列到正确序列的翻译过程是比较有效的解决方案。

目前，基于深度学习技术在人工智能领域取得了非凡成就，而且越来越受到研究者重视。本方法主要基于深度学习中LSTM循环神经网络实现对中文语法纠错任务。LSTM可以有效处理时序数据，广泛的应用于自然语言处理领域。

发明内容

针对现有技术存在的不足，本发明目的是提供基于LSTM的中文文本语法纠错模型的方法，可以有效自动对中文文本纠错，对汉语学习者和语音识别后端处理具有极高的价值。

为实现上述目的，本发明提供了如下技术方案：

一种基于LSTM的中文文本语法纠错模型方法，该方法具体步骤如下：

步骤一：获取大量文本语料库；

步骤二：计算和保存5-gram语言模型：

语言模型负责评价计算一个句子的合理性，计算有n个词的句子W＝(w₁，w₂，…，w_n)的合理性用如公式(1)所示：

P(w₁，w₂，…，w_n)＝p(w₁)p(w₂|w₁)…p(w_n|w₁，w₂，…，w_n-1) (1)

P(w₁，w₂，…，，w_n)是指一个句子W的概率，通常用P(w₁，w₂，…，w_n)的几何平均做为困惑度(perplexity)指数，如公式(2)所示，

困惑度指数越小代表句子合理性越强；

步骤三：获取较多的语法错误句子和纠正句子平行语料库：