[发明专利]一种跨模态敏感信息识别方法、系统和终端在审
申请号: | 202211386761.6 | 申请日: | 2022-11-07 |
公开(公告)号: | CN115758282A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 请求不公布姓名 | 申请(专利权)人: | 上海蜜度信息技术有限公司 |
主分类号: | G06F18/25 | 分类号: | G06F18/25;G06F18/241;G06F18/2415;G06F18/15;G06N3/0455;G06N3/047;G06N3/08 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
地址: | 201204 上海市浦东新区中国上海浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态 敏感 信息 识别 方法 系统 终端 | ||
本申请提供一种跨模态敏感信息识别方法、系统和终端,包括以下步骤:输入跨模态的多媒体信息;提取所述多媒体信息的特征信息;基于所述多媒体信息的特征信息计算所述多媒体信息包含敏感信息的概率;基于所述概率获取敏感信息识别结果。本申请提供的跨模态敏感信息识别方法、系统和终端输入的跨模态数据具有去冗余、全面、多元及互补等特点,通过对这些不同类型的数据进行跨模态数据分析,便于更加合理有效地利用这些跨模态数据;采用的预训练模型增强了跨模态数据的特征表达,使整个模型能够更好地处理跨模态数据,从而得到包含更多信息的特征向量,提高了敏感信息识别的准确性。
技术领域
本申请属于数据处理技术领域,特别是涉及一种跨模态敏感信息识别方法、系统和终端。
背景技术
随着互联网技术的发展,人类社会已经进入到信息时代,用户对信息的需求越来越强。与此同时,信息安全也面临着严重威胁,例如在大量传播的信息中,可能会包含一些违规违法的敏感信息等。GB/T 35273-2020《信息安全技术个人信息安全规范》对敏感个人信息作出了详细的列举,这些敏感个人信息如果被非法收集、泄漏与滥用,将会对社会公众利益和个人合法权益造成严重影响。为了净化网络环境和维护网络安全,有必要对互联网上的敏感信息进行实时监测和识别。
传统的敏感信息识别方法一般采用单模态数据进行敏感性判断,而现在互联网上的信息载体呈现多元化、多模态的趋势,比如一篇文章,不仅包含文字,还包括了图片和音频等,所以仅靠单一模态往往容易造成收集信息不全面,从而导致敏感性判断的结果不准确。
发明内容
本申请的目的在于提供一种跨模态敏感信息识别方法、系统和终端,用于解决现有技术中采用单模态数据进行敏感信息识别的准确性较低的技术问题。
第一方面,本申请提供一种跨模态敏感信息识别方法,包括以下步骤:
输入跨模态的多媒体信息;提取所述多媒体信息的特征信息;基于所述多媒体信息的特征信息计算所述多媒体信息包含敏感信息的概率;基于所述概率获取敏感信息识别结果。
在第一方面的一种实现方式中,所述跨模态的多媒体信息包括以下模态数据中的任意一种或多种组合:
文本模态数据;图像模态数据;语音模态数据。
在第一方面的一种实现方式中,提取所述多媒体信息的特征信息包括以下步骤:
在输入文本模态数据时,使用预训练语言模型获取所述文本模态数据中的文本特征信息;
对所述文本特征信息进行归一化,以获取文本模态特征信息。
在第一方面的一种实现方式中,提取所述多媒体信息的特征信息包括以下步骤:
在输入图像模态数据时,使用预训练视觉模型获取所述图像模态数据中的图像特征信息;
对所述图像特征信息进行平均池化,以获取图像模态特征信息。
在第一方面的一种实现方式中,提取所述多媒体信息的特征信息包括以下步骤:
在输入语音模态数据时,使用预训练语音模型获取所述语音模态数据中的语音特征信息;
对所述语音特征信息进行平均池化,以获取语音模态特征信息。
在第一方面的一种实现方式中,基于所述多媒体信息的特征信息计算所述多媒体信息包含敏感信息的概率包括以下步骤:
搭建第一全连接层,基于所述第一全连接层对所述多媒体信息的特征信息之和进行处理;
搭建第二全连接层,基于所述第二全连接层对所述多媒体信息的特征信息均值进行处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海蜜度信息技术有限公司,未经上海蜜度信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211386761.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:外接于腹腔穿刺器的过滤组件及过滤装置
- 下一篇:电动工具外部电源转接结构
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置