[发明专利]中文分词方法及装置在审
申请号: | 201710570808.7 | 申请日: | 2017-07-13 |
公开(公告)号: | CN109255117A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 赵琦 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王庆龙;曹杰 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词结果 字符串 中文分词 预设 语句 匹配 方法和装置 训练语料库 字符串尾部 模糊匹配 语料库 失败 分词 排序 成功 合并 重复 | ||
本发明实施例提供一种中文分词方法和装置,该方法包括:S1、获取待分词M语句;S2、将M语句中第i个预设长度子句组成第一字符串与训练语料库精确匹配,若成功,获取分词结果进入S3,若失败,进入S4,i初始值为1;S3、将第二字符串作精确匹配,第二字符串是在第一字符串尾部加入排序靠后的j个字符得到的,j初始值为1,若失败,将i值增加预设长度进入S2,若成功,获取分词结果,将j值增加1重复S3;S4、将第一字符串作模糊匹配,获取分词结果,将i值增加预设长度进入S2;S5、若S2至S4任一执行后,M语句中所有字符对应子句均获取到分词结果,终止匹配并合并所有的分词结果。该方法可利用有限语料库进行中文分词。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种中文分词方法及装置。
背景技术
中文分词一直是中文自然语言处理领域必不可少的首要任务,是中文信息处理的基础。中文分词问题可以简单地概括为在给定的句子间插入分隔符,把汉字字符串切分为准确的词串。由于缺少词的标准定义,传统上的中文分词任务首先要根据语言学规范制定词语定义,界定词语边界,然后在此基础上建立符合该词语规范的分词系统。
传统的中文分词基于词典的匹配方法,实际上是以词典为依据对分词语句进行匹配。因为词典中的词语长度较短,因此通过这种匹配所得到的分词结果存在严重的分词歧义问题。虽然存在大量的分词歧义问题,但基于词典匹配的算法往往对已登录词有很高的分词准确率。近些年随着深度学习的兴起,特征表示学习逐渐成为机器学习的一个新兴分支。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征。自2006年Hinton提出深度学习后,已有的工作表明,随着网络层数的加深,深度学习算法可以显著的提高分类的性能。
虽然现有的中文分词算法已经达到很高的精确度,但是在特定工程领域内,如工程招标领域内,从实践角度出发仍然没有一个令人满意的分词算法。目前主流的中文分词算法主要有:基于词典匹配、基于深度学习和基于字标注。基于词典匹配在特定工程领域内很难获得一个比较理想的词典,而且对于未登录词也没有一个很好的解决方法;基于深度学习的中文分词依赖于大规模的语料库以训练出分类特征,特征的设计直接影响分词结果,特征过多会导致模型过于复杂;基于字标注的分词算法不局限于词典,且可以识别出一定数量的未登录词,但是它依赖于大规模的训练语料库。
当前工程招标文件大部分是有权限查询的,不具备大规模语料库,而现有的中文分词算法不能完全适用于工程招标领域。训练语料库是最好的分词参考,如何尽可能地利用训练语料库,从中尽可能多的提取出有用的分词信息是解决招标特定工程领域内中文分词的关键。
发明内容
针对现有技术中存在的问题,本发明实施例提供一种中文分词方法和装置。
第一方面,本发明实施例提供一种中文分词方法,所述方法包括:
S1、获取待进行中文分词的M语句;
S2、将第一字符串与训练语料库进行精确匹配,所述第一字符串是所述M语句中第i个预设长度的子句,若匹配成功,获取所述精确匹配的分词结果,进入步骤S3,若匹配失败,进入步骤S4;其中,i的初始值为1,所述精确匹配是指所述第一字符串与所述训练语料库中的字符串完全一致;
S3、将第二字符串与所述训练语料库进行精确匹配,所述第二字符串是指在所述第一字符串的尾部,加入与所述第一字符串的末尾字符相邻、且排序靠后的j个字符而得到的字符串;其中,j的初始值为1,若匹配失败,将i的值增加所述预设长度,进入步骤S2;若匹配成功,获取所述精确匹配的分词结果,将j的值增加1,重复步骤S3;
S4、将所述第一字符串与训练语料库进行模糊匹配,获取所述模糊匹配的分词结果,然后,将所述i的值增加所述预设长度,进入步骤S2;其中,所述模糊匹配是指,所述第一字符串与所述训练语料库中的字符串的字符重叠率大于预设的阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710570808.7/2.html,转载请声明来源钻瓜专利网。