[发明专利]利用匹配操作和差异操作的编辑脚本核实在审
申请号: | 201880054311.2 | 申请日: | 2018-08-24 |
公开(公告)号: | CN111033506A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | M·G·韦宁根;B·舍恩马克尔斯;S·阿萨多瓦 | 申请(专利权)人: | 皇家飞利浦有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F16/903;G16B30/10;G06F21/62;H04L9/32 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 李光颖 |
地址: | 荷兰艾*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 匹配 操作 差异 编辑 脚本 核实 | ||
一些实施例涉及一种计算设备,其被配置为核实编辑脚本用于将第一字符串转换为第二字符串。所述编辑脚本具有匹配操作和差异操作作为允许的编辑操作。所述计算设备获得编辑脚本的表示,并且随后执行验证计算。针对每个匹配操作,所述计算设备:确定第一字符串中的当前位置处的字符和第二字符串中的当前位置处的字符,核实第一字符串中的当前位置处的字符和第二字符串中的当前位置处的字符相匹配,将第一字符串中的当前位置递增一,并且将第二字符串的当前位置递增一。针对每个差异操作,所述计算设备将第一字符串中的当前位置和/或第二字符串中的当前位置递增一。
相关申请的交叉引用
本申请要求以下美国临时申请号的优先权:于2017年8月24日提交的62/549683以及于2018年5月31日提交的62/678427,其全部公开内容通过引用并入本文,以用于所有目的。
技术领域
本发明涉及一种计算设备、一种核实设备、一种计算方法以及一种计算机可读介质。
背景技术
在如遗传学或自然语言处理的领域中,发现两个字符串(例如,单词)之间的差异是普遍性问题。在两个字符串之间的差异通常被表示为编辑脚本,也被称为编辑路径,其是将一个字符串转换为另一字符串所需的差异操作集合。差异操作可以例如是由一个字符来替换另一字符、插入字符或移除字符。能够通过为编辑脚本中的每个差异操作分配成本或权重,并且将两个字符串之间的所谓编辑距离定义为编辑脚本中用于将字符串中的一个字符串转换为另一字符串的操作的最小总成本,来测量在两个字符串之间的相异度。例如,常用的编辑距离是Levenshtein距离,其具有移除、插入和替换作为差异操作,并且为这些类型的操作中的每种类型的操作分配成本1。
编辑距离和编辑脚本被用在各种设置中。例如,其被用在计算生物学中。一种可能的应用是这样的设备:其对DNA样本进行测序并且测量样本的相似性,例如以使样本与同一个人或家庭成员相匹配。其还被用在例如自然语言处理中,以提供对输入文本中的拼写错误的类似校正。特别地,在参考字符串中搜索目标字符串时使用编辑距离和编辑脚本,同时允许特定数量的不匹配,例如以在参考字符串中找到与目标字符串的编辑距离较小的子字符串。这被用于DNA序列比对,其中,DNA的短样本与参考基因组进行匹配以找到其位置。在此,由于读取错误以及由于人与人之间的DNA略有不同,所以可能发生不匹配。
一旦已经确定了编辑脚本,就需要能够验证该编辑脚本确实用于将第一字符串(例如,参考字符串的子字符串)转换为第二字符串(例如,搜索字符串)。例如,当确定编辑脚本的工作设备与需要确保正确的客户端设备不同时,就是这种情况。例如,这可能是因为客户端设备受到资源约束,例如,其是传感器或智能设备。这也可能是因为客户端设备无法访问第一字符串和/或参考字符串。例如,考虑获得和存储其用户的基因组数据的家庭DNA测序设备,以及充当客户端的保险公司,希望至少近似地了解特定的DNA片段是否出现在用户的基因组数据中。在这样的情况下,基因组数据可以由用户存储,但是保险公司仍然希望知道其接收到关于其对所述数据的查询的正确答案。
遗憾的是,核实编辑脚本是用于将第一字符串转换为第二字符串可能以若干种方式泄漏关于第一字符串和/或第二字符串的数据,这可能是个问题,尤其是在字符串敏感的情况下,例如,如果其是如基因组数据的医学信息。例如,运行在设备上核实编辑脚本的其他应用可能能够观察到关于核实的存储器访问模式的信息,并且尝试使用该信息来导出关于正在被核实的数据的信息。同样地,在第一字符串和/或第二字符串和/或编辑脚本(的部分)来自多个相互不信任方的设置中,核实将要求这些方将其输入共享给需要检查编辑脚本是否正确的任何人。类似地,在客户端设备需要核实由工作设备确定的编辑脚本的正确性的设置中,核实将要求客户端检查如第一字符串、第二字符串或编辑脚本的输入。从隐私的角度来看,这可能是不希望的,例如,在家庭DNA测序应用中,这将意味着让保险公司检查其用户的基因组数据。由于针对客户端设备使用该数据执行核实流程的资源限制,这也可能是根本不希望的,因为这样的计算在其输入(例如,第一字符串或第二字符串,或编辑字符串)的大小上成比例。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皇家飞利浦有限公司,未经皇家飞利浦有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880054311.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发动机的盖部件安装构造
- 下一篇:电动机和电动机的模塑成形用模具