[发明专利]专有名词纠错方法、装置、设备及计算机可读介质在审

专利信息
申请号: 202310438247.0 申请日: 2023-04-12
公开(公告)号: CN116468029A 公开(公告)日: 2023-07-21
发明(设计)人: 杨海韵;严为绒 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G06F40/232 分类号: G06F40/232;G06N3/04;G06N3/08
代理公司: 深圳市沃德知识产权代理事务所(普通合伙) 44347 代理人: 于志光
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 专有名词 纠错 方法 装置 设备 计算机 可读 介质
【权利要求书】:

1.一种专有名词纠错方法,其特征在于,所述方法包括:

从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;

根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;

利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;

利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。

2.如权利要求1所述的专有名词纠错方法,其特征在于,所述利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型,包括:

计算各个所述专有名词文本和对应正样本之间的第一欧式距离,以及计算各个所述专有名词文本和对应负样本之间的第二欧式距离;

从多个所述专有名词中选取其中一个专有名词,根据选取的所述专有名词的第一欧式距离以及所述第二欧式距离,利用所述初始文本纠错模型中的损失函数公式计算损失函数值;

判断所述损失函数值是否大于预设的损失函数阈值;

当所述损失函数值大于预设的损失函数阈值时,利用前反馈神经网络最小化所述损失函数值,并将所述初始文本纠错模型的参数进行网络逆向更新,得到更新文本纠错模型,并返回上述从多个所述专有名词中选取一个专有名词的步骤;

当所述损失函数值小于或者等于预设的损失函数阈值时,将所述更新文本纠错模型作为所述标准文本纠错模型。

3.如权利要求1所述的专有名词纠错方法,其特征在于,所述利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本之前,所述方法还包括:

接收待纠错文本,并将所述待纠错文本拼音化,得到待纠错拼音文本;

将所述待纠错拼音文本通过预设的输入法进行转换,得到拼音转换文本;

比对所述拼音转换文本和所述待纠错文本的相同字符的数目;

当所述拼音转换文本和所述待纠错文本的相同字符的数目小于预设数目时,执行利用所述标准文本纠错模型对待纠错文本进行纠错的步骤。

4.如权利要求3所述的专有名词纠错方法,其特征在于,所述方法还包括:

当所述拼音转换文本和所述待纠错文本的相同字符的数目大于或者等于预设数目时,计算所述待纠错文本的向量均值;

根据所述向量均值从所述专有名词库中获取所述待纠错文本的标准文本。

5.如权利要求1所述的专有名词纠错方法,其特征在于,所述根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,包括:

从所述候选字词库中随机选择一个或者多个字词,利用选择的所述字词替换所述专有名词中对应的字词,得到替换专有名词;

随机删除所述专有名词中的一个或者多个字词,得到缺失专有名词;

汇总所述替换专有名词以及所述缺失专有名词,得到所述专有名词的正样本。

6.如权利要求1所述的专有名词纠错方法,其特征在于,所述通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库,包括:

计算所述专有名词中每个字词与所述预设字词库中每个字词的字形编辑距离,从预设字词库中选择所述选择所述字形编辑距离小于预设第一编辑距离阈值的字词,得到字形近似词;

获取所述专有名词的拼音表示,得到名词拼音,计算所述名词拼音与所述预设字词库中每个字词的拼音之间的字音编辑距离,并从预设字词库中选择所述字音编辑距离小于预设第二编辑距离阈值的字词,得到拼音近似字词;

集合所述拼音近似字词和所述字形近似词,得到所述候选字词库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310438247.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top