[发明专利]一种基于匿名化隐私保护技术的医疗事件抽取方法有效
申请号: | 202110589943.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113312470B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李建欣;李倩;孙睿;司靖辉;毛乾任;黄洪仁 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/14;G06F40/194;G06F40/211;G06F40/258;G06F40/295;G06F40/30;G06F21/62;G16H50/70;G06N3/04;G06N3/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 匿名 隐私 保护 技术 医疗 事件 抽取 方法 | ||
1.一种基于匿名化隐私保护技术的医疗事件抽取方法,其特征在于:由基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型构成,其中检测模型主要用于识别事件的事件类别,而抽取模型则依赖检测模型中的标题-摘要相关度矩阵计算各个单词的权重指数,以协助识别事件中的关键要素,该方法最终输出检测出的事件以及多元组(时间,地点,人物,组织机构,v-n词对)类型的事件结构化表示信息;所述事件检测模型输入医疗文本的概要信息或正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码,并获取最后一层的隐向量作为标题和摘要中每个单词的表示向量,之后利用双向注意力机制层链接和融合标题与摘要中的信息,得到针对每一个标题单词的双向注意力机制层的输出向量后,利用模型层的Bi-LSTM模型学习标题中每个单词的新的上下文相关的表示信息,输出每个单词的隐向量,最后通过输出层,将所述每个单词的隐向量进行拼接后,经过一个全连接层获取针对每一个分类的计算结果,并通过softmax归一化后得到最终的分类标签予以输出;
所述事件抽取模型通过抽取时间、地点、人物、组织机构、v-n词对五项参数的方式结构化表示从事件中提取的有效信息;
所述利用双向注意力机制层链接和融合标题与摘要中信息的具体方法为:标题中每个单词的嵌入编码表示向量表示为{,,…,摘要中每个单词的嵌入编码表示向量表示为{,,…,首先计算标题表示向量与摘要表示向量之间的相似度矩阵,以表示标题中的第个词与摘要中第个词的相似度值;
之后通过对相似度矩阵中列进行softmax计算得到摘要中每个单词的权重,并进行加权求和的方式得到更新后的针对每一个标题单词的摘要特征表示,计算针对标题中的每一个单词,与之相对应的摘要中最相关的单词:
再通过对相似度矩阵中的第列来选取与标题单词最相关的摘要单词,从而针对每一列均得到一个最大值,将这些值进行softmax归一化来得到针对每一个标题单词所对应的权重,经过加权求和后得到新的标题特征表示,计算针对摘要中的每一个词,与之相对应的标题中最相关的单词:
最后针对每一个标题单词,将(,)进行向量拼接后得到双向注意力机制层的输出向量;
所述v-n词对的抽取方法为:首先根据所述事件检测模型中的相似度矩阵计算每个单词的语义权重指数,从而获取词对的候选词集,具体实现方式为,针对标题中单词所对应的列中每一项进行加和得到单词在摘要中的重要程度:
然后计算与所述单词对应的权重相乘得到单词最终的权重数值,筛选权重大于阈值的单词作为词对的候选词集:
在得到候选词集后,还需要依据文本的句法分析树中来获取单词之间的依存距离,得到的句法分析树,通过单词间依存距离的最近邻原则来组合候选词集中的动词与名词,再根据依存关系进行处理后得到最终的v-n词对。
2.如权利要求1所述的一种基于匿名化隐私保护技术的医疗事件抽取方法,其特征在于:时间参数的抽取方法为:抽取具体的某年某月某日的时间信息,依据模板匹配的方式进行,通过设计“\\d{4}年\\d{1,2}月\\d{1,2}日”、“\\d{1,2}月\\d{1,2}日”与“\\d{1,2}日”三个正则表达式进行匹配,当匹配到的信息符合第二与第三个表达式时,则采用新闻发布或者当前的时间年份、月份进行补全。
3.如权利要求2所述的一种基于匿名化隐私保护技术的医疗事件抽取方法,其特征在于:所述地点、人物、组织机构信息只提取不包含隐私信息的实体信息,首先利用语义依存分析工具LTP所带的实体抽取模块进行初步的实体识别,在得到抽取结果后经过特殊字符过滤、停用词词典过滤方式筛选出高质量的实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110589943.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种沼气生产用原料预处理装置
- 下一篇:一种焦深自动补偿方法、装置和系统