[发明专利]基于字符嵌入的LSTM分句方法、系统及介质有效
| 申请号: | 202010412860.1 | 申请日: | 2020-05-15 |
| 公开(公告)号: | CN111460789B | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 赵强利 | 申请(专利权)人: | 湖南工商大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N3/0442;G06N3/0464;G06N3/047;G06N3/084 |
| 代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
| 地址: | 410205 湖南*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 字符 嵌入 lstm 分句 方法 系统 介质 | ||
本发明公开了一种基于字符嵌入的LSTM分句方法、系统及介质,本发明基于字符嵌入的LSTM分句方法包括遍历获取当前候选字符,获取当前候选字符前、后的字符串并作为已训练好的LSTM分句模型M的两个输入获得当前候选字符的预测结果;根据预测结果是否为结尾符进行不同的分句处理方式。本发明将候选结尾符前后的两段字符串信息作为两个LSTM的输入,这两个LSTM输出与候选结尾符的信息一起用于判定候选结尾符是否是真正的结尾符,充分利用了候选结尾符所处的上下文信息进行分句的判定,能够准确区分出文中的候选结尾符是一个句子的结尾还是特殊字符。与传统方法相比,本发明能够显著降低分句的误判率,提高分句的准确度。
技术领域
本发明涉及文本挖掘技术,具体涉及一种基于字符嵌入的LSTM分句方法、系统及介质,尤其适用于生物医学文献的分句文本挖掘。
背景技术
PubMed文献库目前已经提供了近3000万篇的论文摘要和500万篇论文全文,是生物医学领域文本挖掘的重要数据来源。对生物医学文献进行挖掘,从中自动获取基因、变异、疾病和药物等命名实体,是该领域构建基础数据库的一种重要方法。
分句是进行文本挖掘,获取命名实体的一个重要的基础步骤,分句的准确性直接影响着文本挖掘的结果。在自然语言理解中,英文分句的处理都比较简单,通常是利用规则匹配的方法进行分句,例如将几种字符定为句子结尾符,在这些句子结尾符处对文档进行切分。由于生物医学文献的分句存在其特殊性,例如生物医学文献中经常出现作者名缩写,领域专业词缩写,疾病和变异实体等,这些特殊词中存在大量特殊字符,如小括号、中括号、句点、引号、小于号等,采用传统的规则匹配分句,容易将这些特殊字符识别成句子结尾符,导致分句错误,严重影响到命名实体识别(NER,Named Entity Recognition)的结果。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于字符嵌入的LSTM分句方法、系统及介质,本发明基于字符嵌入的LSTM分句方法将候选结尾符前后相关的字符信息一起作为LSTM的输入,这种利用候选结尾符所处上下文信息进行分句判定的方法,能够准确区分出文中的候选结尾符是一个句子的结尾,还是文献中的特殊字符。因此与传统方法相比,本发明能够显著降低分句的误判率,提高分句的准确度。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于字符嵌入的LSTM分句方法,实施步骤包括:
1)初始化:将句子起始位置sentence_begin标定为输入文档D的第一个可打印字符位置,并将当前位置current_site设置为句子起始位置sentence_begin;
2)从当前位置current_site开始向后扫描整个输入文档D,获取距离当前位置current_site最近的候选结尾符作为当前候选字符如果获取成功则跳转执行步骤3);否则跳转执行步骤8);
3)获取当前候选字符前的字符串StringA,当前候选字符后的字符串StringB;
4)以字符串StringA和字符串StringB分别作为已训练好的LSTM分句模型M的两个输入,获得当前候选字符的预测结果M(D,Position());
5)判断当前候选字符的预测结果M(D,Position())是否为结尾符,如果是结尾符则跳转执行步骤6);否则跳转执行步骤7);
6)将句子起始位置sentence_begin开始至当前候选字符截止的字符串作为一个完整的句子输出;判断输入文档D后续是否仍有可打印字符,若输入文档D后续已无可打印字符,则表明已达到输入文档D的结尾,分句预测结束并退出;否则将当前位置current_site和句子起始位置sentence_begin均设为当前候选字符之后的下一个可打印字符的位置,跳转执行步骤2);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010412860.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应急堵漏教学用具
- 下一篇:一种用于纸币鉴伪的方法和系统





