[发明专利]基于深度对抗学习的多语言医疗术语规范标准化系统及方法有效

申请号：	202110588841.9	申请日：	2021-05-27
公开（公告）号：	CN113377897B	公开（公告）日：	2022-04-22
发明（设计）人：	任元凯;江振荣	申请（专利权）人：	杭州莱迈医疗信息科技有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/36;G06F40/247;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G16H10/60
代理公司：	南京乐羽知行专利代理事务所(普通合伙) 32326	代理人：	李培
地址：	310051 浙江省杭州市滨江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度对抗学习语言医疗术语规范标准化系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于深度对抗学习的多语言医疗术语规范标准化系统，包括标准医学术语库，其特征在于：还包括文件预处理模块、候选术语集生成模块、候选术语集重排模块以及输出模块；

所述文件预处理模块，用于统一真实世界的医学术语字符串的格式，以及将长字符串开分成单个的中文及英文词token；

所述候选术语集生成模块，用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语；

所述候选术语集重排模块：用于将真实世界医学术语与筛选出来的候选术语组成术语对，根据匹配程度标注成正例和负例，作为深度学习模型的输入，模型通过迭代优化生成自动术语匹配模型；

所述输出模块，用于向用户返回生成的术语对数据的相似度概率，用户可以通过设定相似度的阈值来判断非规范化术语得到的规范化术语是否需要进行进一步的人工校验；

所述文件预处理模块具体包括医学术语标注语料、编码、字符统一模块及第一分词模块；

所述医学术语标注语料：用于为训练基于深度学习的自动术语匹配模型，将人工构建的真实世界医学术语与标准医学术语的语义对应关系作为训练语料输入到所述候选术语集重排模块中；

所述编码、字符统一模块：用于去除真实世界的医学术语字符串中的噪音；

所述第一分词模块：用于将待规范化术语的长字符串开分成单个的中文及英文词token，以方便在所述候选术语集生成模块中与标准术语进行匹配；

所述候选术语集生成模块具体包括第二分词模块、标准术语索引及语义搜索模块；

所述第二分词模块：用于将标准医学术语的长字符串开分成单个的中文及英文词token；

所述标准术语索引：用于将已经分好词的标准术语建成索引；

所述语义搜索模块：用于从标准医学术语的索引中，基于语义匹配搜索出前n个与真实世界医学术语最相似的标准术语，以在所述候选术语集重排模块中形成候选的匹配术语对；

所述候选术语集重排模块具体包括训练术语对集合、中文自注意力深度神经网络模块、第一医学知识图谱嵌入模块、第一参数优化模块、第一训练误差计算模块、双语种自注意力深度学习模块、第三参数优化模块、第三训练误差计算模块、英文自注意力深度神经网络模块、第二医学知识图谱嵌入模块、第二参数优化模块、第二训练误差计算模块及自动术语匹配模型；

所述训练术语对集合：根据所述语义搜索模块中搜索得到的候选标准术语集合，以及所述医学术语标注语料中的人工标注，生成用于模型训练的正例对和负例对集合，作为深度神经网络模块的输入;

所述中文自注意力深度神经网络模块：将中文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重;

所述第一医学知识图谱嵌入模块：为中文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;

所述第一参数优化模块：通过迭代逐步优化中文深度神经网络的参数;

所述第一训练误差计算模块：用于计算每次中文模型迭代的误差，并通过后向反馈调整深度神经网络参数;

所述双语种自注意力深度学习模块：用于将中文术语对和英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型同时调整双语向量的各维度单元的权重;

所述第三参数优化模块: 通过迭代逐步优化双语种深度神经网络的参数;

所述第三训练误差计算模块: 用于计算每次双语种模型迭代的误差，并通过后向反馈调整深度神经网络参数;

所述英文自注意力深度神经网络模块:用于将英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重;

所述第二医学知识图谱嵌入模块:为英文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;

所述第二参数优化模块: 通过迭代逐步优化英文深度神经网络的参数;

所述第二训练误差计算模块：用于计算每次英文模型迭代的误差，并通过后向反馈调整深度神经网络参数;