[发明专利]基于前缀树的相似字符识别方法、设备、装置和存储介质有效
申请号: | 202010617489.2 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111782892B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 刘东煜;陈乐清;曾增烽;赖坤锋 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F18/22;G06Q40/08 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 前缀 相似 字符 识别 方法 设备 装置 存储 介质 | ||
本申请涉及数据分析技术领域,尤其涉及一种基于前缀树的相似字符识别方法、设备、装置和存储介质,包括获取预存于语料库中的语料,建立映射关系;根据映射关系,构建字音混合前缀树;获取待匹配的汉字字段,依次扫描滑动窗口内的汉字;采用字符串距离算法对扫描到的汉字与处于根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;将编辑距离小于预置编辑距离阈值的路径作为汉字的最优路径;依次获取待匹配汉字字段中各个汉字在最优路径上的节点拼音,确定待匹配的汉字字段对应的目标信息。此外,本申请还涉及区块链技术,拼音字符的数据信息可存储于区块链中。解决了前缀树技术无法对相似拼音匹配正确的汉字的问题。
技术领域
本申请涉及数据分析技术领域,尤其涉及一种基于前缀树的相似字符识别方法、设备、装置和存储介质。
背景技术
信息是对现实世界事物存在方式或运动状态的反映。识别信息指利用计算机技术对信息进行处理、分析和理解,以识别各种不同类型的目标和对像。识别信息识别的信息一般可以分为图像信息识别、文本信息识别以及音频信息识别等。
目前,在应用人工智能机器人对用户的文字信息或者语音信息进行识别的过程中,往往会因地方口音不同、拼音输入法通用词库匹配或对产品名称不熟悉等造成用户输入出现拼写错误,或者因为机器语音识别不准确造成的语音转化错误。
针对上述错误,通常采用两种方法加以解决。一是建立大批错误词至正确词语的混淆词集,再进行匹配纠错。然而,该方法却难以应用落地,因汉字的同音字、谐音字多样,不同情况的排列组合将导致“组合爆炸”,字典庞大却纠错效率极低。二是将错误词语至产品名称的映射关系改进为拼音到产品名称的映射,再使用多模匹配算法进行匹配。这种词典创建方法虽然避免了方法一的“组合爆炸”问题,但却无法纠正具有拼音编辑距离的错误。
发明内容
基于此,针对目前前缀树技术无法对相似拼音匹配正确的汉字的技术问题,提供一种基于前缀树的相似字符识别方法、计算机设备、装置和存储介质。
一种基于前缀树的相似字符识别方法,包括如下步骤:
获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
在其中一个可能的实施例中,所述获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
在其中一个可能的实施例中,所述根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010617489.2/2.html,转载请声明来源钻瓜专利网。