[发明专利]文本相似度量化方法、设备及系统有效

专利信息
申请号: 202010313564.6 申请日: 2020-04-17
公开(公告)号: CN111985519B 公开(公告)日: 2021-07-27
发明(设计)人: 李若愚 申请(专利权)人: 创新先进技术有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06K9/34
代理公司: 北京博思佳知识产权代理有限公司 11415 代理人: 韩果
地址: 开曼群岛大开曼岛*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 相似 度量 方法 设备 系统
【说明书】:

发明提供了文本相似度量化方法、设备及系统。该设备包括:处理器;包括计算机程序代码的存储器。存储器和计算机程序代码与处理器一起促使该设备:获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径,其中,每个最短操作路径包括一个或多个编辑对,每个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作;确定多个相似度得分,每个相似度得分对应所述多个最短操作路径之一,其中每个相似度得分是通过对每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的;选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。

技术领域

本发明通常涉及文本相似度量化方法、设备及系统。

背景技术

光学字符识别(通常缩写为OCR)是一种识别图像或物理文档中的文本并将识别出的文本转换为机器编码文本的技术。机器编码文本通常被称为OCR文本。

eKYC(electronic-Know Your Customer,电子了解您的客户)是一种数字尽职调查过程,由企业执行以验证其客户的身份并评估在业务关系上是否存在非法意图(例如洗钱)的潜在风险。

当执行eKYC时,OCR可用于识别例如身份证、护照等官方身份(ID)文件中的文本内容(例如,姓名、地址、身份证号等)。通常,在用户界面上显示OCR文本,以用于用户进行确认或编辑。如果用户使用编辑文本来更正OCR文本,则出于风险控制考虑,有必要先验证编辑文本是否合理,再接受更正。因此,评估OCR文本与用户编辑文本之间的相似度以验证编辑文本是否合理变得有用。

目前,编辑距离(Edit Distance)技术和杰卡德距离(Jaccard Distance)技术用于评估两个文本字符串之间的相似度。然而,编辑距离技术基于将一个文本字符串转换为另一个文本字符串所需的最少操作次数来评估相似度,但是忽略了两个文本字符串之间的视觉相似度;另一方面,杰卡德距离技术忽略了视觉相似度和两个文本字符串中字符的顺序。

下表1中显示了如何根据编辑距离技术评估2个文本字符串之间的相似度的示例。

如表1所示,在编辑距离技术中,编辑距离用于指示将文本字符串A转换为文本字符串B所需的最少操作次数。在示例1中,需要一次操作:用字母“O”替换数字“0”,以将“B0B”转换为“BOB”。在示例2中,需要一次操作:用数字“1”替换字母“B”,以将“BOB”转换为“1OB”。示例1和示例2中的编辑距离相同,即每个编辑距离等于1。这样,在编辑距离技术中,“B0B”和“BOB”之间的相似度以及“BOB”和“1OB”之间的相似度被认为是相同的。这样的相似度评估仅考虑最少操作次数,而忽略了每次操作中的字符对之间的视觉相似度,不正确地将“0”和“O”与“B”和“1”视为相同。

因此,存在提供如下方法和设备的需求,该方法和设备不仅评估将一个文本字符串转换为另一文本字符串所需的最少操作次数,而且还评估两个文本字符串之间的相关性,即这些操作在这两个文本字符串之间发生的可能性,从而提供改进文本相似度评估的整体综合机制。

借助于改进的文本相似度评估机制,本发明中的方法和设备不仅用于评估(即确定“是否相似”)两个文本字符串之间的文本相似度,还用于量化(即确定“有多相似”)这两个文本字符串之间的文本相似度,从而便于eKYC系统以及其他任何采用OCR技术的电子系统以更高的准确性和可靠性来对OCR文本的手动更正进行自动验证。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010313564.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top