[发明专利]地址解析方法、电子设备及介质在审
申请号: | 202111370407.X | 申请日: | 2021-11-18 |
公开(公告)号: | CN114139558A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 韩宝龙;孙玉霞;何蜀波;邹宇 | 申请(专利权)人: | 携程科技(上海)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/31;G06F16/387;G06F40/126;G06F40/216;G06F40/242;G06N20/00 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 马涛;罗朗 |
地址: | 200335 上海市长宁区金钟*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 解析 方法 电子设备 介质 | ||
本发明公开了一种地址解析方法、电子设备及介质,该方法包括步骤,S1、建立地址实体字典,所述地址实体字典包括若干实体地址以及与所述实体地址所对应的翻译文本;S2、将需要翻译的地址与所对应的所述实体地址匹配;本申请通过对于翻译地址的搜索具有将地址进行识别,对于翻译文本有很好的拓展性,随着将翻译文本的不断拓展,翻译的精准度进行提高,此外本发明可以降低地址中的机器所需要的性能要求,满足机器翻译的实时性。
技术领域
本发明涉及机器语言翻译方法,具体涉及一种地址解析方法、电子设备及介质。
背景技术
随着国际化的深入,各国之间的交流越来越多,对于翻译的需求越来越大,在不同的神经机器翻译模型中,带有注意力机制的模型由于能够在翻译句子生成中关注源句子中最相关的部分而变得流行。这也使模型在翻译更长的句子时具有优势。
现有的机器翻译受限于训练数据,在不同场合之中的效果的区别过大。在通用领域中,长地址的翻译服务的一些文本,酒店等地址,翻译过程中就会出现地址中实体的漏翻,错翻等问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中将地址进行错误翻译、遗漏单一的缺陷,提供一种地址解析方法、电子设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
一种地址解析方法,包括步骤:
S1、建立地址实体字典,所述地址实体字典包括若干实体地址以及与所述实体地址所对应的翻译文本;
所述实体地址包括若干字符,所述字符按照编码排序,所述实体地址按照所述字符的排序进行排序;
S2、将需要翻译的地址与所对应的所述实体地址匹配;
所述将需要翻译的地址与所对应的所述实体地址匹配包括:
对所述需要翻译的地址按照三叉树搜索树策略与实体地址进行匹配;
所述三叉树搜索树策略为对所述需要翻译的地址中第n个字符生成预测字符,n为大于等于1的自然数;
所述预测字符为根据所述需要翻译的地址中第n个字符之前已经匹配完成的字符在实体地址字典中进行搜索的下一个可能的字符,
当所述需要翻译的地址中第n个字符的排序大于/小于所述预测字符的排序,则生成下一个预测字符;
所述需要翻译的地址中第n个字符的排序等于所述预测字符的排序时,则完成所述第n个字符的匹配,并对n加1;
当所述需要翻译的地址中第n个字符在实地地址字典中没有所述预测字符时将所述需要翻译的地址中第n个字符作为下一个需要翻译的地址的第一个字符,并确定原所述需要翻译的地址与所对应的所述实体地址匹配完成;
当确定原所述需要翻译的地址与所对应的所述实体地址匹配完成时,将所述需要翻译的地址替换为与需要翻译的地址所匹配的实体地址相对应的所述翻译文本。
较佳地,所述预测字符为在所述实体地址字典中根据匹配完成的字符中选取下一可能的字符中历史出现最多的字符;
当所述需要翻译的地中第n个字符与所述预测字符进行匹配成功的时候,将所述字符所出现的次数进行累加。
较佳地,所述预测字符有三个;
第一个所述预测字符为当前所述实体地址字典中可能出现的字符中排序最小的字符;
第二个所述预测字符为所述第一个所述预测字符为当前所述实体地址字典中可能出现的字符中排序为中位数的字符;
第三个所述预测字符为所述第一个所述预测字符为当前所述实体地址字典中可能出现的字符中排序最大的字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程科技(上海)有限公司,未经携程科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111370407.X/2.html,转载请声明来源钻瓜专利网。