[发明专利]基于指针网络生成规范化医疗文本的方法、装置及系统在审
申请号: | 202111447771.1 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114091411A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 王亦宁;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/289;G06F40/247;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 指针 网络 生成 规范化 医疗 文本 方法 装置 系统 | ||
1.基于指针网络生成规范化医疗文本的方法,其特征在于,包括:
基于未规范化的医疗文本的字序列,得到规范化的医疗文本的字序列编码表示;其中,使用专业人员标注的医疗文本作为训练集,未规范化的医疗文本为源端,规范化的医疗文本为目标端;
根据所述规范化的医疗文本的字序列编码表示,使用基于指针网络的序列到序列方法训练文本规范化模型,获得规范化医疗文本。
2.根据权利要求1所述的方法,其特征在于,所述基于未规范化的医疗文本的字序列,得到规范化的医疗文本的字序列编码表示,具体为:
对未规范化的医疗文本的字序列进行处理,得到未规范化的医疗文本的字序列编码表示;
基于所述未规范化的医疗文本的字序列编码表示和注意力机制模块,获得规范化的字序列编码表示。
3.根据权利要求2所述的方法,其特征在于,所述对未规范化的医疗文本的字序列进行处理,得到未规范化的医疗文本的字序列编码表示,具体为:
X=[x1,x2…,xn]表示未规范化的医疗文本的字序列,V=[v1,v2,…,vn]表示未规范化的医疗文本的字序列经过医疗文本预训练后字向量编码后的结果:vi=femb(xi);
定义Selfenc()为基于自注意力机制的编码器计算单元,每个字经过编码器的编码表示由以下公式计算得到:
其中,表示第n层中第t个字序列的编码表示,使用编码器,得到最顶层的编码表示hN。
4.根本权利要求3所述的方法,其特征在于,所述基于所述未规范化的医疗文本的字序列编码表示和注意力机制模块,获得规范化的字序列编码表示,具体为:
定义y=[y1…,yn]表示规范化后结果的字序列,U=[u1,…,un]表示字序列经过预训练字向量处理后得到的矩阵,其中,ui表示第i个字的向量:
ui=femb(yi)
定义Selfdec()为基于自注意力的解码器计算单元,解码器在t时刻的输出隐状态由下式计算得到:
其中,hN表示编码器得到的隐状态,为目标端第n层中第t个字序列的解码表示,ut表示t时刻解码器的输入。
5.根据权利要求4所述的方法,其特征在于,所述根据规范化的医疗文本的字序列编码表示,使用基于指针网络的序列到序列方法训练文本规范化模型,获得规范化医疗文本,具体为:
所述规范化的医疗文本的字序列编码表示经过softmax计算,得到指针网络中生成的概率分布Probgen;
计算指针网络中的复制机制的得分Probcopy;
基于所述概率分布Probgen和所述Probcopy,获得规范化的医疗文本。
6.根据权利要求5所述的方法,其特征在于,所述基于规范化的医疗文本的字序列编码表示经过softmax计算,得到指针网络中生成的概率Probfinal,具体为:
按如下公式,解码器输出的最上层隐状态经过一层线性变换linear():
其中,Ot为softmax层的输入表示;
线性变换得到的Ot通过softmax函数来输出每个时刻t在该目标语言词表中的概率分布:
Probgen=softmax(W·Ot+b)
其中,W和b是模型的训练参数,W维度与词表维度相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111447771.1/1.html,转载请声明来源钻瓜专利网。