[发明专利]一种基于LSTM的混合语料分词方法在审
| 申请号: | 201710946646.2 | 申请日: | 2017-10-12 |
| 公开(公告)号: | CN107992467A | 公开(公告)日: | 2018-05-04 |
| 发明(设计)人: | 岳永鹏;唐华阳 | 申请(专利权)人: | 北京知道未来信息技术有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
| 地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 lstm 混合 语料 分词 方法 | ||
技术领域
本发明属于计算机软件技术领域,涉及一种基于LSTM的混合语料分词方法。
背景技术
混合语料,在本专利中,指的是训练或者预测的数据中包含了至少两种语言的语料数据。
分词(Word Segment)是指对输入连续字符串按照语义的信息将其标注成连续的标签序列。在本专利中,指的对亚洲类型的文字(简体中文、繁体中文、韩文和日文)序列数据切分成一个个单独的词,并以空格作为其词与词之间的分割。
混合语料的分词的方法涉及的专业知识有两个方面:一方面是将多种语料的数据格式按照字符级别的方式进行统一;另一方面涉及的专业知识主要是自然语言处理中的序列标注(sequential labeling)是指将一个序列作为输入,并训练一个模型使其为每一序列片段数据产生正确的输出。
对于多种语言的分词方法,传统流程是:多语言输入文本-->(分段或分句)文本语言检查-->分词。
对文本语言的检查首先需要确定检查的粒度,是篇章级别的检查,但是对于一篇文档包含多个两种或以上语言就会出现检测不准确,从而仅仅处理一种语言而忽略另一种语言。此时就需要进行更细粒度的划分,分段或分句做语言检测。本发明混合语料的分词可以简化对传统的多种语言的分词方法为:多语言输入文本-->分词。从而可以避免分段、分句子和文本语言检测的过程。
同时,本发明所涉及的混合语言分词的方法,其应用场景还包括:
1.多语言搜索引擎中的全文索引:搜索引擎中一个重要的功能就是做文档的全文索引,其内容是将文字进行分词,然后将文档的分词结果和文档形成一个倒排索引,用户在查询的时候也是先将查询的输入语句进行分词,而后将分词的结果和索引数据库进行对比,从而找出与当前输入最为相似的文档。
2.多语言自动摘要生成:自动摘要是指将一篇较长的文档用一段较短的语言文字去总结。而在总结的过程中,就需要计算一篇文档中关键词,因此在计算关键词之前必须先对文档做分词处理。
3.多语言自动校对:自动校对是指对一段文字作语法错误的检查,其检查的粒度还是基于词的方式做的检查,因此需要将用户输入的连续文字做分词处理。
传统的对包含多种语言的混合文本的分词方法的步骤:
多语言输入文本-->(分段或分句)文本语言检查-->分词
并且其对每一种语言的分词可以采用基于词典的分词和基于统计的分词两种方式。基于词典的分词是将所有可能的分词都列入一个词典,而后有正向最大匹配或者正向最小匹配的方式按字典词汇进行切割。另一种基于统计的分词方法,其原理大致是:统计相邻词出现的频率,如果频率超过给定阈值就认为是一个固定搭配的词语,而将其作为一个分词单元。其存在的缺点为:
缺点1:对多语言的检测粒度不好区分,并且有因某种语言没有检测到有分词精度的损失。对于一篇文档包含多种语言,首先需要分段处理,然后对每一个段落做语言类型的检测,然而如果对段落中包含也包含多种语言的情形,又需要做分句的处理,对句子中包含多种语言都不能做再做分割了。因分词的模型与语料严重的依赖,结果就会出现因某种语言并没有检测到而丢失分词的信息。
缺点2:基于词典的方法过于依赖词典,不能根据语义的信息识别未在词典出现过的未登录词。
缺点3:目前基于统计的方式主要是HMM(隐马儿科夫)模型和CRF(条件随机场)模型,因为计算的负责度,其仅仅考虑的当前词与上一个词之间是相关联的,其余的是条件独立的,这与现实情况是不相符合的,因此其分词的精度有进一步提升的空间。
本发明为了克服上述缺点分别采用对三种应对方法:1)为避免多语言的检测,本发明将语料进行字符的切割。2)为了避免对未登录层的识别,本发明提出了改进的统计模型CRF。3)为了提高分词的准确率,本发明在传统的统计模型CRF上加入了LSTM作为提前传统的TF-IDF字符向量化的过程。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于LSTM的混合语料分词方法,本发明的核心包含两个部分:
部分1:多语言混合语料格式的统一
为了规避对多语言分词需要先做语言类型的检测问题,在本发明中提出了基于字符级别的分词方法,并且将多中语言组成的混合语料一起放入深度学习模型中,进行训练。
部分2:提升多语言分词的精度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司,未经北京知道未来信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946646.2/2.html,转载请声明来源钻瓜专利网。





