[发明专利]基于时间卷积神经网络的多模态抑郁症检测方法及系统有效
申请号: | 202110184432.2 | 申请日: | 2021-02-10 |
公开(公告)号: | CN112818892B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 杨忠丽;李明定;张光华;武海荣 | 申请(专利权)人: | 杭州医典智能科技有限公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/774;G06V10/80;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 郭海燕 |
地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时间 卷积 神经网络 多模态 抑郁症 检测 方法 系统 | ||
本发明提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。其检测方法具体包括:构建训练样本集,其包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;对训练样本集进行3D面部表情特征提取,获得具备情境感知的3D面部表情特征向量;结合梅尔倒谱系数,用于对所述训练样本集的音频信号进行声学特征提取,获得具备情境感知的语音向量特征;使用Transformer模型,对训练样本集词嵌入进行处理,获得具备情境感知的文本特征;对3D面部表情特征、语音向量特征和文本特征进行融合,获得用于进行抑郁症分类的信息;将用于进行抑郁症分类的信息带入时间卷积神经网络,获得抑郁症分类信息。本发明能够提高了抑郁症检测的准确性。
技术领域
本发明属于大数据技术领域,具体涉及一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。
背景技术
世界上每年因为抑郁症而自杀的患者有近80万人,与其他身体疾病相比,精神障碍更难发现。早期的临床实践中,医生通过在个人访谈中通过诊断抑郁症状的严重程度来确定患者是否患有抑郁症。后来,科研人员通过对语音信号的时域特征,例如停顿时间、录音时间、对问题的反馈时间、语速等进行定量分析,帮助医生对抑郁症患者进行辅助诊断。但是,人们发现单一的特征对辅助临床诊断的辨识度较低。近年来,随着语音检测技术的深入发展,研究者尝试选取特定的语音特征,例如音高(pitch)、能量(energy)、语速(speaking rate)、共振峰(formant)、梅尔倒谱系数(MFCC)等,将其组合,构建出检测抑郁症的分类模型。文本信息是另外一种与抑郁症相关的及其重要的信息。研究表明,抑郁症患者使用消极情感词和愤怒词明显较正常人多,因此人们通常对词频统计作为文本特征表示。在临床实验中,大部分抑郁症患者会将消极或烦躁的情绪通过面部表情的方式展现出来。因此,研究人员将面部特征也作为一种模态融合至抑郁症检测中。
在现有技术中,通常采用基于生化试剂和基于脑电的检测手段,而在基于语音、文本或图像的技术方案中,多以语音数据为依托,在临床面试过程中,患者可能口吃且经常在单词之间停顿,导致音频、视频记录比非抑郁症患者更长。简言之,现有技术主要存在以下几方面的问题:训练数据量方面,现有的基于语音、文本或图像的多模态抑郁症检测系统大部分由有限抑郁症数据训练得到,因此性能低下;特征提取方面,现有特征提取方法缺少受试者在回答不同问题时的面部表情特征,在抑郁症检测领域表现力不足,限制了最终抑郁症检测系统的性能;抑郁症分类建模方面,现有技术没有考虑语音、文本特征与抑郁症诊断的长时间依赖关系;多模态融合方面,不同模态数据之间的特征分布差异大,现有技术简单地把不同模态或通道下所得的子系统输出串联在一起,由于模态之间的特征差异导致特征融合过程中易出现信息损失,因此性能收到限制;在模型选择方面,传统方法多用基于递归神经网络的抑郁症检测方法,对音频、视频的长度进行了限制。
发明内容
本发明的目的是基于上述技术现状,提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。
一种基于时间卷积神经网络的多模态抑郁症检测方法,包括如下步骤:
步骤1:构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息;
步骤2:对所述训练样本集的3D面部表情进行面部表情特征提取,获得具备情境感知的3D面部表情特征向量;
步骤3:使用音频信号分帧加窗算法,结合短时傅里叶变换,绘制所述训练样本集的音频信号的语谱图;再使用三角滤波器,结合梅尔倒谱系数(MFCC),对所述训练样本集的语谱图进行特征增强,获得具备情景感知的语音向量特征;
步骤4:使用Transformer模型,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得具备情景感知的文本特征;
步骤5:使用图卷积神经网络(GCN),对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合,获得用于进行抑郁症分类的信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州医典智能科技有限公司,未经杭州医典智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110184432.2/2.html,转载请声明来源钻瓜专利网。