[发明专利]一种基于LSTM的中文文本语法纠错模型方法有效

申请号：	201910168386.X	申请日：	2019-03-06
公开（公告）号：	CN109948152B	公开（公告）日：	2020-07-17
发明（设计）人：	段大高;赵振东;梁少虎;韩忠明	申请（专利权）人：	北京工商大学
主分类号：	G06F40/232	分类号：	G06F40/232;G06F40/253;G06N3/04;G06N3/08
代理公司：	北京东方盛凡知识产权代理事务所(普通合伙) 11562	代理人：	张雪
地址：	100089***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于LSTM的中文文本语法纠错模型的方法，首先收集大量的中文文本语料用以计算5‑gram语言模型，保存的语言模型将会用作数据处理过程和模型输出的结果选择，然后收集语法纠错平行语料数据，语法纠错平行语料数据用作训练LSTM神经网络模型，实现模型对错误句子到正确句子的序列翻译过程；其次用保存好的5‑gram语言模型对平行语料数据进行预处理，修改掉明显的错误，最后构建LSTM神经网络并用预处理后的数据进行训练，训练结束保存网络参数，并用已训练好的网络，输出语法正确的文本序列。本发明数据容易获取，过程简单有效，LSTM神经网络自动抽取抽象特征，完成语法纠错任务，算法效率和准确度都相对较高，应用于中文学习过程和语音识别后端处理。
搜索关键词：	一种基于 lstm 中文文本语法纠错模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于LSTM的中文文本语法纠错模型方法，其特征在于，该方法具体步骤如下：步骤一：获取大量文本语料库；步骤二：计算和保存5‑gram语言模型：语言模型负责评价计算一个句子的合理性，计算有n个词的句子W＝(w₁，w₂，…，w_n)的合理性用如公式(1)所示：P(w₁，w₂，…，w_nD＝p(w₁)p(w₂|w₁)…p(w_n|w₁，w₂，…，w_n‑1) (1)P(w₁，w₂，…，w_n)是指一个句子W的概率，通常用P(w₁，w₂，…，w_n)的几何平均做为困惑度(perplexity)指数，如公式(2)所示：困惑度指数越小代表句子合理性越强；步骤三：获取较多的语法错误句子和纠正句子平行语料库：平行语料库提供语法错误句子和人工纠正句子的训练对；步骤四：数据预处理：对收集到的数据做进一步处理，用保存的5‑gram语言模型修改掉原始句子的简单拼写错误，将句子看做单个汉字的序列，对每个汉字构造出一个相似候选集合，然后根据语言模型选择候选集合中使得整个句子困惑度最小的候选字，这样将原始句子中简单的拼写错误去除；步骤五：构建网络模型：1)词嵌入层，词嵌入是将文本分词后的词汇进行向量化，本方法用公开的搜狗新闻预训练的词向量数据，每个词汇的词向量维度为300；2)输入层，输入层将输入的词向量做线性变换然后做为LSTM神经网络的输入；3)编码器，编码器负责将输出的原始句子编码为特征向量，用两层的双向LSTM实现，输入的维度为128，输出维度为256；4)解码器，解码器将编码器的输出特征向量作为输入，然后输出修改后的句子，其中应用了注意机制，每输出一个状态的词语都会和输入数据做一次注意力计算；5)输出层，输出层将输出的向量映射到词典维度的向量，并作为各个词的采样概率，采样生成当前状态的输出词；步骤六：把准备好的数据输入步骤五建立的神经网络，计算损失，反向传播，随机梯度下降法迭代500次，训练LSTM神经网络，以多分类交叉熵为代价函数，最终得到收敛的算法模型；步骤七：将待纠正的错误文本经过语言模型预处理，输入LSTM神经网络，得到输出结果，实现对文本语法纠错过程。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工商大学，未经北京工商大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910168386.X/，转载请声明来源钻瓜专利网。

上一篇：构建语音助手的方法
下一篇：一种涉及视频和音频多媒体信息处理的人机交流系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于LSTM的中文文本语法纠错模型方法有效

专利文献下载