[发明专利]一种联合序列标注和模式匹配的事件元素检测方法有效
申请号: | 202110532819.2 | 申请日: | 2021-05-17 |
公开(公告)号: | CN113177416B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 翟鹏珺;王晨;方钰;徐蔚 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06F40/186;G06N3/04 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 序列 标注 模式 匹配 事件 元素 检测 方法 | ||
1.一种联合序列标注和模式匹配的事件元素检测方法,其特征在于,包括:
第一步、对中文现病史文本进行预处理;
第二步、定义中文诊疗事件元素表示模板;
第三步、构建事件句中所包含的语义特征向量;
第四步、对第二步所得的事件元素进行粒度划分;
第五步、依据第四步所划分的结果,分别采用序列标注方法和模式匹配方法获取其对应的事件元素,其中序列标注方法融合了第三步所得的语义特征向量;
其中,第三步:构建事件句中所包含的语义特征向量,
根据电子病历中现病史文本的特征,构建了四种特征向量作为模型的额外输入:(1)词与触发词的距离特征;(2)事件类型特征;(3)实体类别特征;(4)依存句法信息特征;将这些特征提供给第五步;
(1)词与触发词的距离特征:由于第二步提供的事件元素分布在事件触发词的周围,第一步提供的诊疗事件语料中不同类型的事件元素距离触发词的远近存在分布规律,所以在模型中融合词与触发词的距离向量为事件元素抽取提供深层的句法信息;采用的位置编码方式如公式(1)和(2)所示:
PE(pos,2i)=sin(pos/100002i/d) (1)
PE(pos,2i+1)=cos(pos/100002i/d) (2)
其中pos为事件触发词在输入事件句中的位置,取值为0到事件句长度之间的某个整数,d为输入向量的维度,2i和2i+1为输入事件句的其他字词,i的取值为0到d/2-1之间的某个整数;PE(pos,2i)是矩阵中第pos行,偶数列2i列的值,使用正弦函数计算,PE(pos,2i+1)是矩阵中第pos行,奇数列2i+1列的值,使用余弦函数计算;由于三角函数的特征,这样的位置编码方式能同时表达词与触发词之间的绝对位置和相对位置;
(2)事件类型特征:第一步提供的事件语料中不同种类的事件对应着不同种类的事件元素,所以将事件类型作为模型的额外输入特征信息;
(3)实体类别特征:第一步提供的事件语料中同一类事件的事件元素对应的实体类型是相同的,所以,将实体信息作为模型的额外输入特征信息;
(4)依存句法信息特征:虽然不同医生有各自的书写风格,但由于医疗文本有书写规范,第一步提供的诊疗事件语料中相同类型的诊疗事件往往遵循着相同的语法结构;
第四步:对第二步所得的事件元素进行粒度划分,
根据第二步的事件元素表示,对第一步提供的诊疗事件语料中的事件元素进行统计,之后将包含20~50个词的检查事件的检查结果、病理检验事件的病理检验结果、免疫组化事件的免疫组化染色结果为长句级别事件元素,其他为短词级事件元素;将定义的事件元素粒度提供给第五步;
第五步:依据第四步所划分的结果,分别采用序列标注方法和模式匹配方法获取其对应的事件元素,
5.1:针对短词级事件元素,使用融合语料语义依赖特征的序列标注方法进行检测:
5.1.1:对于第一步提供的诊疗事件语料R,利用BERT来训练词向量,由此获得每个事件句中所有词的向量表示形式将该向量提供给5.1.2;
5.1.2:对词向量融合第三步提供的面向文本R的四个额外输入语义特征向量fm,这里m=1,2,3,4,该融合过程表示为公式(3),这里||表示拼接操作;
5.1.3:利用一个隐层大小为的双向LSTM网络来编码步骤5.1.2提供的融合后的向量由此学习如何判别关键的融合向量,以获取短词级的语义信息;在第t时间步,为BiLSTM的输入,BiLSTM输出的隐层状态为该过程表示为公式(4);
5.1.4:为了避免训练结果出现过拟合的情况,利用Dropout层使得步骤5.1.3中的BiLSTM中部分双向长短时记忆单元随机失活,同时通过拼接步骤5.1.2提供的融合了语义特征的向量来进一步加强短词级的语义信息:
其中为权重矩阵,bL为偏置,这里Bernoulli函数是为了随机生成一个0、1的向量,f(*)为激活函数;
5.1.5:将5.1.4Dropout的输出输入至CRF层,其相应的标签序列为则,对于第一步提供的诊疗事件语料中给定现病史文本R,CRF层的所有参数通过最大化来估计:
其中,为归一化因子,表示对应标签的概率,则表示在对应标签的前提下对应标签的概率,λg和μv为超参数;由此,通过求解语料上的最大化对数似然函数训练CRF,由此获取最准确的短词级事件元素检索结果:
5.2:针对长句级事件元素,采用模式匹配的方法对其进行检测:
5.2.1:对于第一步提供的诊疗事件语料,通过依存句法分析解析出句子中的主谓、动宾语法成分,利用哈工大的LTP自然语言处理工具对事件语料进行依存句法分析,将这些依存句法分析结果提供给步骤5.2.2;
5.2.2:根据事件句固定表达句式,结合步骤5.2.1提供的依存句法分析结果,总结设计了面向长句级事件元素检测的模式规则;
5.2.3:针对事件句的事件类型,对该事件句在步骤5.2.2提供的模式规则模板中进行依次匹配,从12个模板中找到该事件句对应的规则模板,由此从事件句中检测出对应的事件元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110532819.2/1.html,转载请声明来源钻瓜专利网。