[发明专利]专有名词的智能纠错方法、装置、设备及存储介质在审
| 申请号: | 202010164805.5 | 申请日: | 2020-03-11 |
| 公开(公告)号: | CN111428494A | 公开(公告)日: | 2020-07-17 |
| 发明(设计)人: | 曾增烽;刘东煜 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/232;G06F40/242;G06F16/33;G06F16/332 |
| 代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
| 地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 专有名词 智能 纠错 方法 装置 设备 存储 介质 | ||
本发明涉及大数据技术领域,公开了一种专有名词的智能纠错方法,包括:获取待纠错专有名词,对待纠错专有名词进行分词处理,得到待纠错文本的多个分词片段,并以拼音格式输出,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索分词片段对应候选词,得到检索结果;若检索结果不为空,则基于检索结果,确定各检索候选词,分别计算检索候选词的分数并进行排序,输出排序结果;基于排序结果,将分数最高的候选词作为替换项,替换对应分词片段。本发明还公开了一种专有名词的智能纠错装置、设备及计算机可读存储介质。本发明为用户提供了更精准的专有名词的智能纠错服务,提高了纠错的效率。
技术领域
本发明涉及大数据技术领域,尤其涉及一种专有名词的智能纠错方法、装置、设备及计算机可读存储介质。
背景技术
近年来,随着经济社会的不断发展,在垂直领域内,客户咨询问题时,往往会针对一个具体的专业方向,在这些类似问题中,往往包含该领域中的一些特殊的专有名词。用户往往会打错或者因为语言转化导致这些专有名词中出现部分错字,会使后续的模块难以准确判断用户的真实表达。
在目前的输入法或语言识别中,针对用户打错的字或者语言转化导致专有名词中出现错误进行纠错,大多借助于序列标注模型,比如ner,lstm+crf等,但因为这种方法需要一大批标该领域的对齐语料,且在纠错的过程中不限制待纠错专有名词的数量和质量,纠错的运行效率低下。
发明内容
本发明的主要目的在于提供一种专有名词的智能纠错方法、装置、设备及计算机可读存储介质,旨在解决现有的纠错方法运行效率低下的技术问题。
为实现上述目的,本发明提供一种专有名词的智能纠错方法,所述专有名词的智能纠错方法包括以下步骤:
获取待纠错专有名词;
对所述待纠错专有名词进行分词处理,得到所述待纠错文本的多个分词片段,并将所述分词片段以拼音格式输出;
基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果;
若所述检索结果不为空,则基于所述检索结果,确定所述各检索候选词;
基于所述检索候选词,计算所述检索候选词的分数并进行排序,输出排序结果;
基于所述排序结果,将分数最高的候选词作为替换项,替换对应分词片段。
可选地,在获取待纠错专有名词的步骤之前,还包括:
获取第一原始语料;
对所述第一原始语料进行分词处理,得到所述原始语料的多个词片段;
将所述词片段以拼音的格式输入,统计所述多个词片段的拼音;
基于所述多个词片段的拼音,确定拼音相同的词片段,构建同音字字典,其中,所述同音字字典包括同一拼音与不同文字的对应关系。
可选地,在所述获取待纠错专有名词的步骤之前,还包括:
获取第二原始语料;
对所述第二原始语料进行切词处理,得到所述第二原始语料的多个词片段;
基于所述多个词片段,分别将所述词片段进行单字切词,得到单字集合;
基于所述单字集合,构建倒排索引字典。
可选地,在所述基于所述拼音格式的分词片段,分别将每一个分词片段的拼音作为关键词,从预置同音字字典中检索所述分词片段对应候选词,得到检索结果的步骤之后,还包括:
若所述检索结果为空,则遍历剔除所述分词片段中的字,获取多个词组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010164805.5/2.html,转载请声明来源钻瓜专利网。





