[发明专利]专有名词纠错方法、装置、设备及计算机可读介质在审

专利信息
申请号: 202310438247.0 申请日: 2023-04-12
公开(公告)号: CN116468029A 公开(公告)日: 2023-07-21
发明(设计)人: 杨海韵;严为绒 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06N3/04;G06N3/08
代理公司: 深圳市沃德知识产权代理事务所(普通合伙) 44347 代理人: 于志光
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 专有名词 纠错 方法 装置 设备 计算机 可读 介质
【说明书】:

发明涉及自然语言处理技术领域,揭露一种专有名词纠错方法,包括:从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取专有名词对应的候选字词库;根据候选字词库对专有名词进行随机的字词替换或增删操作,得到正样本,以及从专有名词库中选择与专有名词完全不相同的专有名词作为负样本;利用专有名词以及专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。本发明还提出一种专有名词纠错装置、设备及存储介质。本发明可以提升医疗诊断过程中对专有名词纠错的准确率。

技术领域

本发明涉及自然语言处理技术领域,尤其涉及一种专有名词纠错方法、装置、设备及介质。

背景技术

受限于目前的语音识别技术水平、用户自身的方言背景、以及输入法本身的识别技术水平,初始传入搜索引擎的query往往存在着同近音和近形字错误,例如,某些地方的方言背景的用户容易分不清”l”和“n”的发音,导致相应的近音字错误。另一方面,当用户需要检索某个专业领域的信息时,由于专有名词存在较多生僻字,普通用户在输入过程中容易输入更为熟悉和简单的同音近形字代替;同时,由于专有名词的字词组合方式较为罕见,用户难以完全记住,往往输入语序错误、或者具有多字缺字的错误query。

在现实应用中,专业领域信息的检索相较于通用领域的信息检索往往具有更低的容错度,在涉及法律、医疗等专业领域,错误的专业名词输入导致的错误检索结果轻则引发用户和平台之间的纠纷,重则会延误用户的求助和医疗救治。因此,亟需一种专有名词纠错方法,能够在用户输入错误时及时纠正,返回用户真正想要且准确的结果。

发明内容

本发明提供一种专有名词纠错方法、装置、设备及介质,其主要目的在于提升对专有名词纠错的准确率。

为实现上述目的,本发明提供的一种专有名词纠错方法,包括:

从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;

根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;

利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;

利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。

可选地,所述利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型,包括:

计算各个所述专有名词文本和对应正样本之间的第一欧式距离,以及计算各个所述专有名词文本和对应负样本之间的第二欧式距离;

从多个所述专有名词中选取其中一个专有名词,根据选取的所述专有名词的第一欧式距离以及所述第二欧式距离,利用所述初始文本纠错模型中的损失函数公式计算损失函数值;

判断所述损失函数值是否大于预设的损失函数阈值;

当所述损失函数值大于预设的损失函数阈值时,利用前反馈神经网络最小化所述损失函数值,并将所述初始文本纠错模型的参数进行网络逆向更新,得到更新文本纠错模型,并返回上述从多个所述专有名词中选取一个专有名词的步骤;

当所述损失函数值小于或者等于预设的损失函数阈值时,将所述更新文本纠错模型作为所述标准文本纠错模型。

可选地,所述利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本之前,所述方法还包括:

接收待纠错文本,并将所述待纠错文本拼音化,得到待纠错拼音文本;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310438247.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top