[发明专利]中文分词方法及装置在审
| 申请号: | 201811639636.5 | 申请日: | 2018-12-29 |
| 公开(公告)号: | CN109684645A | 公开(公告)日: | 2019-04-26 |
| 发明(设计)人: | 申化泽;竺成浩 | 申请(专利权)人: | 北京泰迪熊移动科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名实体 中文分词 分词 机器学习 集合 学习 自定义词典 分词系统 可维护性 输入中文 准确率 申请 文本 | ||
本申请公开了一种中文分词方法及装置。该方法包括对输入中文文本分别进行命名实体识别和深度学习分词,得到的结果作为新词集合;对所述新词集合采用基于词典的分词方法,得到中文分词结果,其中,所述命名实体识别中至少包括:深度学习命名实体识别和机器学习命名实体识别。本申请解决了中文分词方法效果较差的技术问题。结合了深度学习分词、深度学习命名实体识别、机器学习命名实体识别和基于词典分词,不仅具有很好的泛化能力,而且具有很好的准确率。此外,采用自定义词典,增加了分词系统的可维护性。
技术领域
本申请涉及文本处理领域,具体而言,涉及一种中文分词方法及装置。
背景技术
中文分词(Chinese Word Segmentation)指的是将一段连续的中文文本切分成一个个单独的词。中文分词是中文自然语言处理的一个基本任务,分词的好坏直接影响后续的自然语言处理。
发明人发现,基于词典的分词方法,对词典依赖比较强,泛化能力差。而基于单字成词的方法,泛化能力好,但是不支持添加词典。进一步,在实际使用时上述方法时,针对中文的分词效果并不够好,且不利于维护。
针对相关技术中中文分词方法效果较差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种中文分词方法及装置,以解决中文分词方法效果较差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种中文分词方法。
根据本申请的中文分词方法包括:对输入中文文本分别进行命名实体识别和深度学习分词,得到的结果作为新词集合;对所述新词集合采用基于词典的分词方法,得到中文分词结果,其中,所述命名实体识别中至少包括:深度学习命名实体识别和机器学习命名实体识别。
进一步地,所述深度学习分词包括:将待处理文本中的每个字标记上B、M、E、S标记,其中,B代表词语的首字,M代表词语中间的字,E代表词语的末字,S代表单字词;训练用于对文本进行预测并可标注每个字标记的学习模型;使用所述用于对文本进行预测并可标注每个字标记的学习模型对输入中文文本进行分词处理。
进一步地,所述深度学习命名实体识别包括:将待处理文本中的每个字标记上B、M、E、S、O标记,其中,B代表词语的首字,M代表词语中间的字,E代表词语的末字,S代表单个字就是一个实体,O代表实体外部的字;对不同类型的实体,标记时带上实体的类型;训练用于对文本进行实体识别的学习模型;使用所述用于对文本进行实体识别的学习模型对输入中文文本进行命名实体识别处理。
进一步地,所述机器学习命名实体识别包括:使用机器学习命名实体识别模型识别预设的命名实体,其中,命名实体中至少包括:人名识别、餐厅识别或酒店识别。
进一步地,对所述新词集合采用基于词典的分词方法还包括:对特定词语或名词,建立自定义词典;对输入中文文本分别进行命名实体识别和深度学习分词后,将得到的词建立新词词典。
为了实现上述目的,根据本申请的另一方面,提供了一种中文分词装置。
根据本申请的中文分词装置包括:第一处理模块,用于对输入中文文本分别进行命名实体识别和深度学习分词,得到的结果作为新词集合;第二处理模块,用于对所述新词集合采用基于词典的分词方法,得到中文分词结果,其中,所述命名实体识别中至少包括:深度学习命名实体识别和机器学习命名实体识别。
进一步地,所述第一处理模块包括:深度学习分词模块,所述深度学习分词模块包括:第一标记单元,用于将待处理文本中的每个字标记上B、M、E、S标记,其中,B代表词语的首字,M代表词语中间的字,E代表词语的末字,S代表单字词;第一训练单元,用于训练用于对文本进行预测并可标注每个字标记的学习模型;第一分词处理单元,用于使用所述用于对文本进行预测并可标注每个字标记的学习模型对输入中文文本进行分词处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泰迪熊移动科技有限公司,未经北京泰迪熊移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811639636.5/2.html,转载请声明来源钻瓜专利网。





