[发明专利]自动检测自由文本中的个人信息在审
申请号: | 202011013395.0 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112560483A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | A·芬克尔施泰因;B·哈伊姆;E·梅纳赫姆 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/232;G06F40/166 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动检测 自由 文本 中的 个人信息 | ||
本发明涉及自动检测自由文本中的个人信息,包括:对数字文本文档自动应用命名实体识别(NER)算法,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(POS)标记算法和依赖性解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;以及自动发出估计结果的通知。
技术领域
本发明涉及自动文本分析领域。
背景技术
最近全球范围内信息隐私法规的增加已经产生了各种技术,这些技术评估数字存储的信息是否符合这种法规。此外,对敏感数据存储的安全攻击的增长也推动了这些技术的发展,因此组织可以分配资源来保护高风险数据库和存储系统。
这样的技术通过使用复杂的数据分类技术、漏洞扫描和风险评分,提供了关于遵守GDPR、PCI、HIPAA、CCPA、LGPD和其他法规的风险评估工具。
这样的工具之一是IBM公司的Security Guardium Analyzer,该工具旨在通过分析内部部署和云数据库来查找并向用户提供优先的风险信息,从而帮助识别受监管的数据风险。它包括分类引擎,该引擎搜索数据库表内的数据、执行漏洞扫描并发现当前威胁。
相关技术的前述示例和与之相关的限制旨在进行说明而不是排他性的。通过阅读说明书和研究附图,相关领域的其他限制对于本领域技术人员将变得显而易见。
发明内容
结合系统、工具和方法来描述和说明以下实施例及其方面,所述系统、工具和方法是示例性和说明性的,而并不限制范围。
一个实施例涉及一种方法,该方法包括操作至少一个硬件处理器以:将命名实体识别(named-entity recognition)NER算法自动应用于数字文本文档,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(parts-of-speech)POS标记算法和依赖性解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;以及自动发出估计结果的通知。
另一实施例涉及一种系统,该系统包括:(a)至少一个硬件处理器;(b)一种计算机可读存储介质,其上包含程序代码,该程序代码可由所述至少一个硬件处理器执行以:将命名实体识别(NER)算法自动应用于数字文本文档,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(POS)标记算法和依赖项解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;并自动发出估计结果的通知。
另一实施例涉及一种计算机程序产品,该计算机程序产品包括具有包含在其上的程序代码的计算机可读存储介质,该程序代码可由至少一个硬件处理器执行以:将命名实体识别(NER)算法自动应用于数字文本文档,以检测出现在数字文本文档中的命名实体,其中命名实体选自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;通过对包含检测到的命名实体的数字文本文档的句子应用词性(POS)标记算法和依赖项解析算法,自动检测命名实体之间的至少一种关系;自动估计命名实体之间的至少一种关系是否表示个人信息;并自动发出估计结果的通知。
在一些实施例中,该方法还包括,或者该程序代码还可以执行以:在数字文本文档中,用至少一个个人类型实体的名字的名词替换与至少一个个人类型实体有关的代词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011013395.0/2.html,转载请声明来源钻瓜专利网。