[发明专利]基于前缀树的相似字符识别方法、设备、装置和存储介质有效
申请号: | 202010617489.2 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111782892B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 刘东煜;陈乐清;曾增烽;赖坤锋 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F18/22;G06Q40/08 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 前缀 相似 字符 识别 方法 设备 装置 存储 介质 | ||
1.一种基于前缀树的相似字符识别方法,其特征在于,包括:
获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息;
所述获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系;
所述采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离,包括:
获取所述扫描到的汉字在所述前缀树中的节点位置,根据所述节点位置开始逐层向下搜索所述前缀树的节点,并计算当前节点与所述根节点之间的编辑距离;
当所述编辑距离达到指定阈值时,中止当前节点以及所述当前节点的子节点的搜索过程,并从与所述当前节点处于同级的兄弟节点的下一节点开始逐层进行搜索;
当所述前缀树中所有的节点均已遍历完毕时,汇总搜索路径中各个子路径的编辑距离得到所述路径的总编辑距离;
所述将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径,包括:
获取编辑距离小于预置编辑距离阈值的路径,若所述路径为一条,则所述路径为所述最优路径;
若所述路径不唯一,则应用动态规划算法对各所述路径进行递归,根据递归结果确定所述最优路径。
2.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:
获取所述易错语料的相邻语料,计算所述易错语料和所述相邻语料之间的关联度;
将所述关联度与预置关联度阈值进行比较,若所述关联度大于关联度阈值,则将所述易错语料和所述相邻语料打包成一易错语料组;
根据所述修正策略,建立所述易错语料组与所述其它语料之间的映射关系。
3.根据权利要求1或2所述的基于前缀树的相似字符识别方法,其特征在于,所述依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息之后,所述方法还包括:
根据预设的名称规则对所述目标信息进行校验,判断所述目标信息是否符合所述名称规则;
若所述目标信息符合所述名称规则,则建立所述待匹配的汉字字段与所述目标信息之间的映射关系;
若所述目标信息不符合所述名称规则,则重新获取新的最优路径直至符合所述名称规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010617489.2/1.html,转载请声明来源钻瓜专利网。