[发明专利]一种基于LSTM的中文文本语法纠错模型方法有效
申请号: | 201910168386.X | 申请日: | 2019-03-06 |
公开(公告)号: | CN109948152B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 段大高;赵振东;梁少虎;韩忠明 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/253;G06N3/04;G06N3/08 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 张雪 |
地址: | 100089*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm 中文 文本 语法 纠错 模型 方法 | ||
1.一种基于LSTM的中文文本语法纠错模型方法,其特征在于,该方法具体步骤如下:
步骤一:获取大量文本语料库;
步骤二:计算和保存5-gram语言模型:
语言模型负责评价计算一个句子的合理性,计算有n个词的句子W=(w1,w2,…,wn)的合理性用如公式(1)所示:
P(w1,w2,…,wn)=p(w1)p(w2|w1)…p(wn|w1,w2,…wn-1) (1)
P(w1,w2,…,wn)是指一个句子W的概率,通常用P(w1,w2,…,wn)的几何平均做为困惑度(perplexity)指数,如公式(2)所示:
困惑度指数越小代表句子合理性越强,保存的语言模型将会用作数据处理过程和模型输出的结果选择;
步骤三:获取较多的语法错误句子和纠正句子平行语料库:
平行语料库提供语法错误句子和人工纠正句子的训练对;
步骤四:数据预处理:
对收集到的数据做进一步处理,用保存的5-gram语言模型修改掉原始句子的简单拼写错误,将句子看做单个汉字的序列,对每个汉字构造出一个相似候选集合,然后根据语言模型选择候选集合中使得整个句子困惑度最小的候选字,这样将原始句子中简单的拼写错误去除;
步骤五:构建网络模型:
1)词嵌入层,词嵌入是将文本分词后的词汇进行向量化,本方法用公开的搜狗新闻预训练的词向量数据,每个词汇的词向量维度为300;
2)输入层,输入层将输入的词向量做线性变换然后做为LSTM神经网络的输入;
3)编码器,编码器负责将输出的原始句子编码为特征向量,用两层的双向LSTM实现,输入的维度为128,输出维度为256;
4)解码器,解码器将编码器的输出特征向量作为输入,然后输出修改后的句子,其中应用了注意机制,每输出一个状态的词语都会和输入数据做一次注意力计算;
5)输出层,输出层将输出的向量映射到词典维度的向量,并作为各个词的采样概率,采样生成当前状态的输出词;
步骤六:把准备好的数据输入步骤五建立的神经网络,计算损失,反向传播,随机梯度下降法迭代500次,训练LSTM神经网络,以多分类交叉熵为代价函数,最终得到收敛的算法模型;
步骤七:将待纠正的错误文本经过语言模型预处理,输入LSTM神经网络,得到输出结果,实现对文本语法纠错过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910168386.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:构建语音助手的方法
- 下一篇:一种涉及视频和音频多媒体信息处理的人机交流系统