[发明专利]一种内容匹配的方法及装置、可读存储介质有效
| 申请号: | 202011099984.5 | 申请日: | 2020-10-14 |
| 公开(公告)号: | CN112232091B | 公开(公告)日: | 2021-11-16 |
| 发明(设计)人: | 陈海燕;钱开源;张沛宇 | 申请(专利权)人: | 文思海辉智科科技有限公司 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06F40/289;G06F16/903 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
| 地址: | 102200 北京市昌平区未来科*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 内容 匹配 方法 装置 可读 存储 介质 | ||
本申请提供一种内容匹配的方法及装置、可读存储介质。内容匹配的方法,包括:获取待匹配内容;所述待匹配内容为UI内容或UA内容;根据预设断句规则,将所述待匹配内容拆分为待匹配字串;根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息;将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型。该方法用以完善UI和UA的匹配方式,提高UI和UA的利用率。
技术领域
本申请涉及翻译技术领域,具体而言,涉及一种内容匹配的方法及装置、可读存储介质。
背景技术
软件本地化翻译工作中主要涉及两类文件,包含UI(User Interface,用户界面)和UA(User Assistant,用户帮助)文件。传统技术使用TM(Translation Memory,翻译记忆库)存储已翻内容,以便复用译文或获取相近源文的译文。
UA文件中大多数的段落都是包含多个句子的长文本。因为文本长度过长,这些段落不容易得到匹配,TM利用率低下。为了提高翻译效率,传统技术往往会先做断句,再逐句翻译,以便按句子入库。而对于UI文件,大部分UI字串比较短,容易出现同一个串在不同场景(即其所属的UI界面/功能模块)下意义不同,所以译文也不同。UI文件中字串的顺序是无意义的,而字串ID(Identity Document,身份标识)又是唯一的,因此传统技术基于UI的ID进行匹配复用。
因而,传统技术中,针对UA文件,往往会断句后翻译,UI翻译前不做断句操作。进而导致,对于UI文件,长文本段不能断句,并且UI和UA两者之间不能很好地进行匹配,影响UI和UA文件的复用,利用率较低。
发明内容
本申请实施例的目的在于提供一种内容匹配的方法及装置、可读存储介质,用以完善UI和UA的匹配方式,提高UI和UA的利用率。
第一方面,本申请实施例提供一种内容匹配的方法,包括:获取待匹配内容;所述待匹配内容为UI内容或UA内容;根据预设断句规则,将所述待匹配内容拆分为待匹配字串;根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息;将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型。
在本申请实施例中,针对UI内容和UA内容,采用相同的匹配方式,均先进行断句得到待匹配字串,然后获取待匹配字串的属性信息,基于该属性信息确定待匹配字串与翻译记忆库中的参考字串的匹配类型。通过这种匹配方式,一方面,基于属性信息的匹配方式可以对UI内容和UA内容都进行断句,实现在TM中统一断句状态,便于UI内容和UA内容之间的正确匹配,提高UI内容和UA内容的利用率。另一方面,当确定匹配类型后,在对UI内容和UA内容进行利用时,可以结合匹配类型考虑是否对其进行利用,或者根据匹配类型选择应用方式,进而提高UI内容和UA内容的利用率。
作为一种可能的实现方式,所述属性信息包括:文本属性和附加属性;所述附加属性包括:上下文属性、标识属性和组件名属性中的至少一项。
在本申请实施例中,属性信息中包括基本的文本属性,以及能够实现UI内容和UA内容之间的正确匹配的上下文属性、标识属性和组件名属性中的至少一种属性,若采用一种属性,则能够通过该种属性进行针对性的匹配,实现快速匹配;若采用多种属性,则能够基于不同类型的属性实现更准确地匹配;从而提高匹配率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于文思海辉智科科技有限公司,未经文思海辉智科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011099984.5/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法





