[发明专利]一种信息处理方法及装置在审
申请号: | 201911413820.2 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111143882A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 郑永升;石磊;其他发明人请求不公开姓名 | 申请(专利权)人: | 杭州依图医疗技术有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 韩岳松 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 | ||
本申请公开了一种信息处理方法及装置,用以解决现有技术中无法对非结构化文本的信息进行脱敏而导致增加人力成本和时间成本的问题。所述方法包括:当接收到待处理信息时,判断所述待处理信息是否为结构化文本信息;当所述待处理信息为非结构化文本信息时,从结构化文本信息中提取预设关键词,所述结构化文本信息和所述非结构化文本信息关联;判断所述待处理信息中是否存在所述预设关键词;当确定所述待处理信息中存在所述预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作。采用本申请所提供的方案,实现了对非结构化文本信息的自动屏蔽,从而减少了人力成本和时间成本。
技术领域
本申请涉及计算机领域,特别涉及一种信息处理方法及装置。
背景技术
目前,出于科研目的,会将大量数据进行整合,例如医院的病历文本等医疗数据,将医疗数据整合进行科研是很有必要的,但是,医院的医疗数据中存在大量的敏感信息,如用户姓名,用户地址,手机号等,这些信息泄露可能会给用户带来不必要的麻烦,因此,用于科研时,医疗数据必须要经过脱敏处理,才符合科研的要求。所谓脱敏,是指对数据中的敏感信息通过脱敏规则进行数据的变形,实现敏感信息的屏蔽。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
在结构化的文本中含有敏感信息,在非结构化的文本中也包含敏感信息,然而在现有技术中,目前只能针对结构化文本中的敏感信息进行自动脱敏。而对于非结构化文本,则只能通过人工操作来进行脱敏,而人工对海量的非结构化文本进行脱敏,也需要大量的时间,增加了人力成本和时间成本,因此,如何提供一种方案,实现对非结构化文本的信息进行脱敏,从而减少人力成本和时间成本,是一亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种信息处理方法及装置,用以解决现有技术中无法对非结构化文本的信息进行脱敏而导致增加人力成本和时间成本的问题。
为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种信息处理方法,包括:
当接收到待处理信息时,判断所述待处理信息是否为结构化文本信息;
当所述待处理信息为非结构化文本信息时,从结构化文本信息中提取预设关键词,所述结构化文本信息和所述非结构化文本信息关联;
判断所述待处理信息中是否存在所述预设关键词;
当确定所述待处理信息中存在所述预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作。
本申请的有益效果在于:当待处理信息为非结构化文本信息时,可以从与非结构化文本关联的结构化文本信息中提取预设关键词;基于该预设关键词确定待处理信息中的预设关键词时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,实现了对非结构化文本信息的自动屏蔽,从而减少了人力成本和时间成本。
在一个实施例中,所述从结构化文本信息中提取预设关键词,包括:
从结构化文本信息中获取预设字段;
以所述预设字段对应的信息作为预设关键词进行提取。
在一个实施例中,当所述预设关键词为住址时,通过预设方式对所述待处理信息中的预设关键词的特定内容进行屏蔽操作,包括:
获取所述待处理信息中的住址信息;
判断所述住址信息中是否包含与行政区划信息相关的关键字;
当所述住址信息中包含与行政区划信息相关的关键字时,根据预设的正则表达式对所述住址信息进行修改,以使所述住址信息只保留与行政区划相关的地址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州依图医疗技术有限公司,未经杭州依图医疗技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911413820.2/2.html,转载请声明来源钻瓜专利网。