[发明专利]一种基于匿名化隐私保护技术的医疗事件抽取方法有效
申请号: | 202110589943.2 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113312470B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 李建欣;李倩;孙睿;司靖辉;毛乾任;黄洪仁 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/14;G06F40/194;G06F40/211;G06F40/258;G06F40/295;G06F40/30;G06F21/62;G16H50/70;G06N3/04;G06N3/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 匿名 隐私 保护 技术 医疗 事件 抽取 方法 | ||
本发明通过人工智能领域的方法,实现了一种基于匿名化隐私保护技术的医疗事件抽取方法。由事件检测模型和事件抽取模型构成;事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层、双向注意力机制层、模型层、输出层的模型结构,采用Bi‑LSTM模型方法得到最终的分类标签;事件抽取模型通过抽取时间、地点、人物、组织机构、v‑n词对五项参数的方式结构化表示从事件中提取的有效信息。最终实现了能够克服事件句中可能存在的实体语义信息不明的情况,以及利用语义依存树学习文本结构信息来弥补文本中实体含义部分缺失的问题的方法。
技术领域
本发明涉及人工智能领域,尤其涉及一种基于匿名化隐私保护技术的医疗事件抽取方法。
背景技术
自从互联网技术出现以来,对应的网络安全问题就受到广泛关注,其中隐私安全问题一直是重中之重。事件抽取技术是从文本中捕获事件并抽取事件的要素,是一种对文本内容的结构化分析。已有的事件抽取方法大多是基于模板的方法,这种方式只能抽取指定类型的事件且需要大量的标注工作,而针对开放域的事件抽取方法无需标注数据和不限事件类型。而文本中存在一些敏感信息被加密,这给我们的事件抽取任务增加了难度。目前针对涉及隐私内容的事件抽取技术的研究相对少,基本是模式匹配的方式,这种方式无法适用于语法结构复杂多变的文本。
事件抽取是信息抽取技术的一个重要分支,主要包括事件类型识别、触发词识别、事件要素识别、要素角色识别是个任务。通过事件抽取技术能够帮助我们结构化的展示事件发生的时间、地点、人物、行为等内容,帮助我们快速的掌握事件关键信息。对于有敏感信息保护的文本,目前没有一套基于隐私保护的开放域事件抽取方法与装置实现针对事件要素抽取的方法。而从带有敏感实体被隐去的文本中抽取事件要素并结构化展示是对用户隐私信息保护的同时对事件最直观的信息的捕捉,提升用户的体验。
发明内容
为此,本发明首先提出一种基于匿名化隐私保护技术的医疗事件抽取方法,由基于摘要-文本双向流注意力机制的事件检测模型和基于隐私保护的开放域事件抽取模型构成,其中检测模型主要用于识别事件的具体分类,而抽取模型则依赖检测模型中的标题-摘要相关度矩阵计算各个单词的权重指数,以协助识别事件中的关键要素,该方法最终输出具体的事件检测以及多元组(时间,地点,人物,组织机构,v-n词对)类型的事件结构化表示信息;所述事件检测模型输入已发布新闻的概要信息或新闻正文的第一段落作为与标题进行信息交互的摘要文本,使用双向注意力流获取标题中的单词与摘要中文本的关联信息,之后通过单词嵌入层采用预训练的Bert模型来对标题和摘要中的文本进行嵌入编码,并获取最后一层的隐向量作为标题和摘要中每个单词的表示向量,之后利用双向注意力机制层链接和融合标题与摘要中的信息,得到针对每一个标题单词的双向注意力机制层的输出向量后,利用模型层的Bi-LSTM模型学习标题中每个单词的新的上下文相关的表示信息,输出每个单词的隐向量,最后通过输出层,将所述每个单词的隐向量进行拼接后,经过一个全连接层获取针对每一个分类的计算结果,并通过softmax归一化后得到最终的分类标签予以输出;
所述事件抽取模型通过抽取时间、地点、人物、组织机构、v-n词对五项参数的方式结构化表示从事件中提取的有效信息。
所述利用双向注意力机制层链接和融合标题与摘要中的信息的具体方法为:标题中每个单词的嵌入编码表示向量表示为{,,…,摘要中每个单词的嵌入编码表示向量表示为{,,…,首先计算标题表示向量与摘要表示向量之间的相似度矩阵,以表示标题中的第个词与摘要中第个词的相似度值;
之后通过对相似度矩阵中列进行softmax计算得到摘要中每个单词的权重,并进行加权加和的方式得到更新后的针对每一个标题单词的摘要特征表示,计算针对标题中的每一个单词,摘要中最相关的单词:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110589943.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种沼气生产用原料预处理装置
- 下一篇:一种焦深自动补偿方法、装置和系统