[发明专利]专有名词的智能纠错方法、装置、设备及存储介质在审

申请号：	202010164805.5	申请日：	2020-03-11
公开（公告）号：	CN111428494A	公开（公告）日：	2020-07-17
发明（设计）人：	曾增烽;刘东煜	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/232;G06F40/242;G06F16/33;G06F16/332
代理公司：	北京市京大律师事务所 11321	代理人：	刘挽澜
地址：	518033 广东省深圳市福田区益田路5033号***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	专有名词智能纠错方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及大数据技术领域，公开了一种专有名词的智能纠错方法，包括：获取待纠错专有名词，对待纠错专有名词进行分词处理，得到待纠错文本的多个分词片段，并以拼音格式输出，分别将每一个分词片段的拼音作为关键词，从预置同音字字典中检索分词片段对应候选词，得到检索结果；若检索结果不为空，则基于检索结果，确定各检索候选词，分别计算检索候选词的分数并进行排序，输出排序结果；基于排序结果，将分数最高的候选词作为替换项，替换对应分词片段。本发明还公开了一种专有名词的智能纠错装置、设备及计算机可读存储介质。本发明为用户提供了更精准的专有名词的智能纠错服务，提高了纠错的效率。

技术领域

本发明涉及大数据技术领域，尤其涉及一种专有名词的智能纠错方法、装置、设备及计算机可读存储介质。

背景技术

近年来，随着经济社会的不断发展，在垂直领域内，客户咨询问题时，往往会针对一个具体的专业方向，在这些类似问题中，往往包含该领域中的一些特殊的专有名词。用户往往会打错或者因为语言转化导致这些专有名词中出现部分错字，会使后续的模块难以准确判断用户的真实表达。

在目前的输入法或语言识别中，针对用户打错的字或者语言转化导致专有名词中出现错误进行纠错，大多借助于序列标注模型，比如ner，lstm+crf等，但因为这种方法需要一大批标该领域的对齐语料，且在纠错的过程中不限制待纠错专有名词的数量和质量，纠错的运行效率低下。

发明内容

本发明的主要目的在于提供一种专有名词的智能纠错方法、装置、设备及计算机可读存储介质，旨在解决现有的纠错方法运行效率低下的技术问题。

为实现上述目的，本发明提供一种专有名词的智能纠错方法，所述专有名词的智能纠错方法包括以下步骤：

获取待纠错专有名词；

对所述待纠错专有名词进行分词处理，得到所述待纠错文本的多个分词片段，并将所述分词片段以拼音格式输出；

基于所述拼音格式的分词片段，分别将每一个分词片段的拼音作为关键词，从预置同音字字典中检索所述分词片段对应候选词，得到检索结果；

若所述检索结果不为空，则基于所述检索结果，确定所述各检索候选词；