[发明专利]文本串嵌入及认证的方法、设备和系统在审
申请号: | 202110193206.0 | 申请日: | 2021-02-20 |
公开(公告)号: | CN112800412A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 李若愚 | 申请(专利权)人: | 支付宝实验室(新加坡)有限公司 |
主分类号: | G06F21/45 | 分类号: | G06F21/45;G06F21/31;G06F40/126 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 韩果 |
地址: | 新加坡珊顿大*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 嵌入 认证 方法 设备 系统 | ||
本文提供了用于文本串嵌入及认证的方法、设备和系统。该文本串嵌入方法包括:访问存储的包括文本串和设备标识的历史数据,每个设备标识与文本串相关联;生成包括多个关键词和多个值的嵌入查找表,生成嵌入查找表包括:将文本串拆分成多个词;利用多个词和设备标识通过以下生成图:将每个词表示为第一类节点;将每个设备标识表示为第二类节点;以及对于每个第二类节点,通过将表示设备标识之一的第二类节点与第一类节点中的节点链接来构建边;使用所生成的图来训练嵌入模型;基于经训练的嵌入模型构造嵌入查找表,嵌入查找表的每个关键词包括第一类和第二类节点中的一个,嵌入查找表的每个值包括与第一类和第二类节点中的一个相对应的向量。
技术领域
本文广泛地但非排他地涉及用于文本串嵌入及认证的方法、设备和系统。
背景技术
电子化了解您的客户(eKYC)是一种由企业执行的数字尽职调查处理,用于验证其客户的身份并评估对业务关系的非法意图的潜在风险。在eKYC处理中,企业必须进行认证以验证用户的个人信息。用户的个人信息包含文本串形式的数据,例如用户地址、用户姓名等。
现有技术使用基于文本距离度量的词比较技术,例如编辑距离,来进行文本串认证。然而,词比较技术不能捕获词和/或短语的语义含义,因此不能识别相同或相似文本串的各种表达之间的相似性。根据现有技术中的词比较技术,例如,文本串“璧山,区129,04-01,新加坡570129”被认为不同于另一文本串“璧山,Blk 129,04-01,SG”,尽管它们涉及相同的地址。因此,后续认证是不准确的。
词嵌入技术(例如word2vec)能够从词或短语中提取出语义含义。然而,在eKYC的环境下,文本串(例如,地址、姓名等)是通过OCR技术从身份(ID)卡的照片中捕获的或者由用户输入的,并不包含文本串中的词的上下文信息(例如,地址中的地址词、姓名中的词)。因此,当前的词嵌入技术不能产生令人满意的认证结果。
因此,需要提供能够为文本串生成准确的嵌入以提高eKYC处理中的认证准确性的方法、设备和系统。
发明内容
根据本文的第一实施例,提供了一种文本串嵌入的方法。该方法包括:访问存储的包括文本串和设备标识的历史数据,其中,每个所述设备标识与一个或多个所述文本串相关联;以及生成包括多个关键词和多个值的嵌入查找表,其中,生成所述嵌入查找表包括:将所述历史数据中的文本串拆分成多个词;利用所述多个词和所述设备标识通过以下生成图:将所述多个词中的每个词表示为第一类节点;将每个所述设备标识表示为第二类节点;以及对于每个所述第二类节点,通过将表示所述设备标识之一的所述第二类节点与所述第一类节点中的节点链接来构建边,所述第一类节点中的被链接的节点所表示的词包括在与所述设备标识之一相关联的一个或多个文本串中;使用所述生成的图来训练嵌入模型;以及基于所述经训练的嵌入模型构造所述嵌入查找表,其中,所述嵌入查找表的多个关键词中的每个关键词包括所述第一类节点和所述第二类节点中的一个,所述嵌入查找表的多个值中的每个值包括与所述第一类节点和所述第二类节点中的一个相对应的向量。
根据本文的第二实施例,提供了一种文本串认证的方法。该方法包括:从用户接收第一文本串;将所述第一文本串拆分成多个第一词;以及使用根据前述实施例中任一个实施例生成的嵌入查找表中的一个或多个值认证所述第一文本串,所述一个或多个值与所述嵌入查找表中对应于所述第一文本串的所述多个第一词中的每个词相关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝实验室(新加坡)有限公司,未经支付宝实验室(新加坡)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110193206.0/2.html,转载请声明来源钻瓜专利网。