[发明专利]自动检测自由文本中的个人信息在审
申请号: | 202011013395.0 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112560483A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | A·芬克尔施泰因;B·哈伊姆;E·梅纳赫姆 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/232;G06F40/166 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动检测 自由 文本 中的 个人信息 | ||
1.一种方法,包括操作至少一个硬件处理器以:
自动将命名实体识别(NER)算法应用于数字文本文档,以检测出现在所述数字文本文档中的命名实体,其中所述命名实体选自自由以下各项组成的组:至少一个个人类型实体,以及至少一个非个人类型实体;
通过对包含检测到的命名实体的所述数字文本文档的句子应用词性(POS)标记算法和依赖项解析算法,自动检测所述命名实体之间的至少一种关系;
自动估计所述命名实体之间的至少一种关系是否表示个人信息;以及
自动发出估计结果的通知。
2.根据权利要求1所述的方法,还包括:操作至少一个硬件处理器,以在所述数字文本文档中用所述至少一个个人类型实体的名字的名词替换与所述至少一个个人类型实体有关的代词。
3.根据权利要求1所述的方法,还包括操作至少一个硬件处理器以:
在自动应用NER算法之前,通过以下至少一项自动预处理所述数字文本文档:
(a)检测所述数字文本文档的主要语言,从而选择NER算法以匹配所述主要语言;
(b)从数字文本文档中移除以下至少一项:空白和技术字符;以及
(c)更正所述数字文本文档中的拼写错误。
4.根据权利要求1所述的方法,其中所述至少一个非个人类型实体选自由以下各项组成的组:组织、对象、位置、国籍、时间、日期、地址、艺术品、事件、婚姻状况、职业、金钱、语言和数量。
5.根据权利要求1所述的方法,还包括操作至少一个硬件处理器以:将不同的命名实体识别(NER)算法自动应用于所述数字文本文档;以及应用一个或多个预定义规则来解决由所述NER算法和不同的NER算法检测到的命名实体之间的一个或多个冲突。
6.如权利要求1所述的方法,还包括操作至少一个硬件处理器以过滤所述命名实体并合并至少一些所述命名实体。
7.根据权利要求1所述的方法,其中所述自动检测所述命名实体之间的至少一个关系还包括:
利用所应用的依赖性解析算法的结果来确定将每个句子中的每两个命名实体连接起来的依赖性路径;
选择位于依赖性路径内的文本表达;以及
将每个所述文本表达与从预定义的一组关系类型中选择的关系类型相关联。
8.根据权利要求7所述的方法,其中所述自动估计包括基于以下内容来计算所述数字文本文档的隐私分数或所述至少一个个人类型实体中的每一个的隐私分数:
与所述关系类型相关联的第一组预定义分数,其中第一组的每个分数指示相应的关系类型是个人信息的一部分的可能性;以及
与所述命名实体相关联的第二组预定义分数,其中第二组的每个分数指示相应的命名实体是个人信息的一部分的可能性。
9.根据权利要求7所述的方法,还包括操作至少一个硬件处理器以:
自动检测所述至少一个个人类型实体包括至少一部分人名;
自动将NER算法应用于训练集,该训练集包含多个包含全名的其他数字文本文档,以检测多个个人类型实体和多个非个人类型实体;
通过将词性(POS)标记算法和依赖项解析算法应用于多个其他数字文本文档的句子,每个句子都包含多个个人类型实体和多个非个人类型实体中的至少两个命名实体,以自动检测所述多个个人类型实体与所述多个非个人类型实体之间的关系,
自动生成训练知识图,所述训练知识图的节点包括相互关联的所述多个个人类型实体和所述多个非个人类型实体的节点,并且其边包括关系中的各个关系;
自动生成特定知识图,所述知识图的节点包括相互关联的至少一个个人类型实体和至少一个非个人类型实体的节点,并且其边包括至少一个关系中的各个关系;以及
通过交叉引用特定知识图和训练知识图,自动确定至少一个个人类型实体的至少一个全名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011013395.0/1.html,转载请声明来源钻瓜专利网。