[发明专利]一种基于LSTM-CNN的混合语料分词方法有效
申请号: | 201710946441.4 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107797986B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 唐华阳;岳永鹏;刘林峰 | 申请(专利权)人: | 北京知道未来信息技术有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/205;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100102 北京市朝阳区阜*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm cnn 混合 语料 分词 方法 | ||
本发明公开了一种基于LSTM‑CNN的混合语料分词方法。本方法为:将训练混合语料数据转化为字符级的混合语料数据;统计该混合语料数据字符得到一字符集合并对每个字符编号,得到字符编号集合;统计字符标签得到一标签集合,对标签编号得到标签编号集合;将语料按照句子长度划分,根据句子长度对得到的句子分组,得到数据集合;随机无放回的从数据集合中选取一句子分组,从中抽取多个句子,每一句子的字符构成一数据w,对应的标签集合为y;将数据w转换为对应的编号和标签y送入模型LSTM‑CNN,训练深度学习模型的参数;将待预测的混合语料数据转换成与深度学习模型匹配的数据,并将其送入训练好的深度学习模型,得到分词结果。
技术领域
本发明属于计算机软件技术领域,涉及一种基于LSTM-CNN的混合语料分词方法。
背景技术
混合语料,在本专利申请中,指的是训练或者预测的数据中包含了至少两种语言的语料数据。
分词(Word Segment)是指对输入连续字符串按照语义的信息将其标注成连续的标签序列。在本专利申请中,指的对亚洲类型的文字(简体中文、繁体中文、韩文和日文)序列数据切分成一个个单独的词,并以空格作为其词与词之间的分割。登录词,在本专利中,指的是已经出现在语料词表中的词。未登录词,指的是没有出现在语料词表中的词。
混合语料的分词的方法涉及的专业知识有两个方面:一方面是将多种语料的数据格式按照字符级别的方式进行统一;另一方面涉及的专业知识主要是自然语言处理中的序列标注(sequential labeling)是指将一个序列作为输入,并训练一个模型使其为每一序列片段数据产生正确的输出。
对于多种语言的分词方法,传统流程是:
多语言输入文本--(分段或分句)文本语言检查--分词
对文本语言的检查首先需要确定检查的粒度,是篇章级别的检查,但是对于一篇文档包含多个两种或以上语言就会出现检测不准确,从而仅仅处理一种语言而忽略另一种语言。此时就需要进行更细粒度的划分,分段或分句做语言检测。
并且其对每一种语言的分词可以采用基于词典的分词和基于统计的分词两种方式。基于词典的分词是将搜有可能的分词都列入一个词典,而后有正向最大匹配或者正向最小匹配的方式按字典词汇进行切割。另一种基于统计的分词方法,其原理大致是:统计相邻词出现的频率,如果频率超过给定阈值就认为是一个固定搭配的词语,而将其作为一个分词单元。
缺点1:对多语言的检测粒度不好区分,并且有因某种语言没有检测到有分词精度的损失。对于一篇文档包含多种语言,首先需要分段处理,然后对每一个段落做语言类型的检测,然而如果对段落中包含也包含多种语言的情形,又需要做分句的处理,对句子中包含多种语言都不能做再做分割了。因分词的模型与语料严重的依赖,结果就会出现因某种语言并没有检测到而丢失分词的信息。
缺点2:基于词典的方法过于依赖词典,不能根据语义的信息识别未在词典出现过的未登录词。
缺点3:目前基于统计的方式主要是HMM(隐马儿科夫)模型和CRF(条件随机场)模型,因为计算的负责度,其仅仅考虑的当前词与上一个词之间是相关联的,其余的是条件独立的,这与现实情况是不相符合的,因此其分词的精度有进一步提升的空间。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于LSTM-CNN的混合语料分词方法。
本发明混合语料的分词可以简化对传统的多种语言的分词方法为:多语言输入文本--分词,从而可以避免分段、分句子和文本语言检测的过程。
本发明所涉及的混合语言分词的方法,其应用场景包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京知道未来信息技术有限公司,未经北京知道未来信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946441.4/2.html,转载请声明来源钻瓜专利网。