[发明专利]中文分词方法及装置在审
| 申请号: | 201811639636.5 | 申请日: | 2018-12-29 |
| 公开(公告)号: | CN109684645A | 公开(公告)日: | 2019-04-26 |
| 发明(设计)人: | 申化泽;竺成浩 | 申请(专利权)人: | 北京泰迪熊移动科技有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
| 地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名实体 中文分词 分词 机器学习 集合 学习 自定义词典 分词系统 可维护性 输入中文 准确率 申请 文本 | ||
1.一种中文分词方法,其特征在于,包括:
对输入中文文本分别进行命名实体识别和深度学习分词,得到的结果作为新词集合;
对所述新词集合采用基于词典的分词方法,得到中文分词结果,
其中,所述命名实体识别中至少包括:深度学习命名实体识别和机器学习命名实体识别。
2.根据权利要求1所述的中文分词方法,其特征在于,所述深度学习分词包括:
将待处理文本中的每个字标记上B、M、E、S标记,其中,B代表词语的首字,M代表词语中间的字,E代表词语的末字,S代表单字词;
训练用于对文本进行预测并可标注每个字标记的学习模型;
使用所述用于对文本进行预测并可标注每个字标记的学习模型对输入中文文本进行分词处理。
3.根据权利要求1所述的中文分词方法,其特征在于,所述深度学习命名实体识别包括:
将待处理文本中的每个字标记上B、M、E、S、O标记,其中,B代表词语的首字,M代表词语中间的字,E代表词语的末字,S代表单个字就是一个实体,O代表实体外部的字;对不同类型的实体,标记时带上实体的类型;
训练用于对文本进行实体识别的学习模型;
使用所述用于对文本进行实体识别的学习模型对输入中文文本进行命名实体识别处理。
4.根据权利要求1所述的中文分词方法,其特征在于,所述机器学习命名实体识别包括:
使用机器学习命名实体识别模型识别预设的命名实体,其中,命名实体中至少包括:人名识别、餐厅识别或酒店识别。
5.根据权利要求1所述的中文分词方法,其特征在于,对所述新词集合采用基于词典的分词方法还包括:
对特定词语或名词,建立自定义词典;
对输入中文文本分别进行命名实体识别和深度学习分词后,将得到的词建立新词词典。
6.一种中文分词装置,其特征在于,包括:
第一处理模块,用于对输入中文文本分别进行命名实体识别和深度学习分词,得到的结果作为新词集合;
第二处理模块,用于对所述新词集合采用基于词典的分词方法,得到中文分词结果,
其中,所述命名实体识别中至少包括:深度学习命名实体识别和机器学习命名实体识别。
7.根据权利要求6所述的中文分词装置,其特征在于,所述第一处理模块包括:深度学习分词模块,所述深度学习分词模块包括:
第一标记单元,用于将待处理文本中的每个字标记上B、M、E、S标记,其中,B代表词语的首字,M代表词语中间的字,E代表词语的末字,S代表单字词;
第一训练单元,用于训练用于对文本进行预测并可标注每个字标记的学习模型;
第一分词处理单元,用于使用所述用于对文本进行预测并可标注每个字标记的学习模型对输入中文文本进行分词处理。
8.根据权利要求6所述的中文分词装置,其特征在于,所述第一处理模块包括:深度学习命名实体识别模块,所述深度学习命名实体识别模块包括:
第二标记单元,用于将待处理文本中的每个字标记上B、M、E、S、O标记,其中,B代表词语的首字,M代表词语中间的字,E代表词语的末字,S代表单个字就是一个实体,O代表实体外部的字;对不同类型的实体,标记时带上实体的类型;
第二训练单元,用于训练用于对文本进行实体识别的学习模型;
第二分词处理单元,用于使用所述用于对文本进行实体识别的学习模型对输入中文文本进行命名实体识别处理。
9.根据权利要求6所述的中文分词装置,其特征在于,所述第一处理模块包括:机器学习命名实体识别模块,所述机器学习命名实体识别模块包括:
指定命名实体识别单元,用于使用机器学习命名实体识别模型识别预设的命名实体,其中,命名实体中至少包括:人名识别、餐厅识别或酒店识别。
10.根据权利要求6所述的中文分词装置,其特征在于,所述第二处理模块包括:词典模块,所述词典模块包括:
自定义词典单元,用于对特定词语或名词,建立自定义词典;
新词词典单元,用于对输入中文文本分别进行命名实体识别和深度学习分词后,将得到的词建立新词词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京泰迪熊移动科技有限公司,未经北京泰迪熊移动科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811639636.5/1.html,转载请声明来源钻瓜专利网。





