[发明专利]基于字符嵌入的LSTM分句方法、系统及介质有效
| 申请号: | 202010412860.1 | 申请日: | 2020-05-15 |
| 公开(公告)号: | CN111460789B | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 赵强利 | 申请(专利权)人: | 湖南工商大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N3/0442;G06N3/0464;G06N3/047;G06N3/084 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
| 地址: | 410205 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 字符 嵌入 lstm 分句 方法 系统 介质 | ||
1.一种基于字符嵌入的LSTM分句方法,其特征在于实施步骤包括:
1)初始化:将句子起始位置sentence_begin标定为输入文档D的第一个可打印字符位置,并将当前位置current_site设置为句子起始位置sentence_begin;
2)从当前位置current_site开始向后扫描整个输入文档D,获取距离当前位置current_site最近的候选结尾符作为当前候选字符γ,如果获取成功则跳转执行步骤3);否则跳转执行步骤8);
3)获取当前候选字符γ前的字符串StringA,当前候选字符γ后的字符串StringB;
4)以字符串StringA和字符串StringB分别作为已训练好的LSTM分句模型M的两个输入,获得当前候选字符γ的预测结果M(D,Position(γ)),包括将字符串StringA看作是字符序列,该序列中每个字符对应的字符向量作为第一个LSTM的输入,该LSTM的输出记为VEC1;将字符串StringB看作是字符序列,该序列中每个字符对应的字符向量作为第二个LSTM的输入,该LSTM的输出记为VEC2;然后将输出结果VEC1、候选结尾符Y的字符嵌入向量和输出结果VEC2依次拼接作为全连接层的输入,全连接层的输出通过输出层获得预测结果M(D,Position(γ));
5)判断当前候选字符γ的预测结果M(D,Position(γ))是否为结尾符,如果是结尾符则跳转执行步骤6);否则跳转执行步骤7);
6)将句子起始位置sentence_begin开始至当前候选字符γ截止的字符串作为一个完整的句子输出;判断输入文档D后续是否仍有可打印字符,若输入文档D后续已无可打印字符,则表明已达到输入文档D的结尾,分句预测结束并退出;否则将当前位置current_site和句子起始位置sentence_begin均设为当前候选字符γ之后的下一个可打印字符的位置,跳转执行步骤2);
7)判断输入文档D后续是否仍有可打印字符,若输入文档D后续已无可打印字符,则表明已达到输入文档D的结尾,跳转执行步骤8);否则将当前位置current_site设为当前候选字符γ之后的下一个可打印字符的位置,跳转执行步骤2);
8)对文档结尾处无结尾符情况的处理:将句子起始位置sentence_begin开始至输入文档D最后一个可打印字符截止的字符串作为一个句子输出该字符串;分句预测结束。
2.根据权利要求1所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤2)中获取距离当前位置current_site最近的候选结尾符时,该候选结尾符为候选句尾字符集{.,?,),],”,!}中的任意一种,该候选句尾字符集一共包括六种候选结尾符且分别以英文逗号进行分隔。
3.根据权利要求1所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤3)中获取当前候选字符γ前的字符串StringA的详细步骤包括:判断当前候选字符γ前是否存在m个空格,如果存在m个空格,则从当前候选字符γ之前的第m个空格符开始、至当前候选字符γ前一个字符止的字符串作为字符串StringA;否则直接取文档开始处至当前候选字符γ前一个字符止的字符串作为字符串StringA。
4.根据权利要求1所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤3)中获取当前候选字符γ后的字符串StringB的详细步骤包括:判断当前候选字符γ后是否存在n个空格,如果存在n个空格则从当前候选字符γ的下一个字符开始至后面第n个空格符止的字符串作为字符串StringB;如果提前到达文档的结尾处,则取从当前候选字符γ的下一个字符开始至文档结束位置止的字符串作为字符串StringB。
5.根据权利要求1~4中任意一项所述的基于字符嵌入的LSTM分句方法,其特征在于,步骤4)中的已训练好的LSTM分句模型M包括两个字符级LSTM、拼接层、全连接层和输出层,所述LSTM分句模型M的两路输入StringA和StringB,各自输入至一个字符级LSTM,所述拼接层用于将两个字符级LSTM的输出和候选结尾符的字符嵌入向量拼接作为全连接层的输入,输出层用于输出是否是句子结尾符的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010412860.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应急堵漏教学用具
- 下一篇:一种用于纸币鉴伪的方法和系统





