[发明专利]基于指针网络生成规范化医疗文本的方法、装置及系统在审
申请号: | 202111447771.1 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114091411A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 王亦宁;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/289;G06F40/247;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 指针 网络 生成 规范化 医疗 文本 方法 装置 系统 | ||
本发明提供了基于指针网络生成规范化医疗文本的方法、装置及系统,该方法包括:基于未规范化的医疗文本的字序列,得到规范化的医疗文本的字序列编码表示;其中,使用专业人员标注的医疗文本作为训练集,未规范化的医疗文本为源端,规范化的医疗文本为目标端;根据所述规范化的医疗文本的字序列编码表示,使用基于指针网络的序列到序列方法训练文本规范化模型,获得规范化医疗文本。本发明依赖生成式的方法有效的解决了需要专业人员大量标注的问题,缓解了当前基于文本分类的模型泛化性较差的弊端。同时,使用了基于指针网络的生成式模型,该模型能够判断医疗文本中哪些文本可以被保留、哪些文本需要被修改,能够很好的利用已有的文本信息。
技术领域
本发明书一个或多个实施例涉及医疗信息数据处理技术领域,尤其涉及一种基于指针网络生成规范化医疗文本的方法、装置及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
病历,是医务人员对患者疾病的发生、发展、转归进行检查、诊断、治疗等医疗活动过程中所形成的资料的总和。病历质量控制是医疗质量管理的重要组成部分。书写完整、规范的病历可以保证病案的真实性、及时性、客观性以及医疗行为的可追溯性,从而提高医疗管理水平,预防以及减少医疗纠纷。
因此,医疗文本的规范化非常重要,而现有的文本规范化模型通常需要专业人士收集规范化表达方式,然后将文本规范化任务转换成文本分类任务,从而实现将医疗文本规范化的方法。
但上述规范化方法存在以下问题:
首先,收集和标注医疗文本的规范化表述需要耗费一定规模的时间和人力。其次,当出现没有被专业人员总结过的表述方式时,当前基于文本分类的规范化方法无法进行判断;与此同时,当模型需要更新时无法复用已有的模型,需要重新训练,耗时耗力。
发明内容
本说明书一个或多个实施例描述了一种基于指针网络生成规范化医疗文本的方法、装置及系统,用以解决目前医疗文本规范化任务需要专业人员的大量工作,而且模型性能不佳,泛化性较差的问题。
本说明书一个或多个实施例提供的技术方案如下:
第一方面,本发明提供了一种基于指针网络生成规范化医疗文本的方法,其特征在于,包括:
基于未规范化的医疗文本的字序列,得到规范化的医疗文本的字序列编码表示;其中,使用专业人员标注的医疗文本作为训练集,未规范化的医疗文本为源端,规范化的医疗文本为目标端;
根据所述规范化的医疗文本的字序列编码表示,使用基于指针网络的序列到序列方法训练文本规范化模型,获得规范化医疗文本。
在一个示例中,所述基于未规范化的医疗文本的字序列,得到规范化的医疗文本的字序列编码表示,具体为:
对未规范化的医疗文本的字序列进行处理,得到未规范化的医疗文本的字序列编码表示;
基于所述未规范化的医疗文本的字序列编码表示和注意力机制模块,获得规范化的字序列编码表示。
在一个示例中,所述对未规范化的医疗文本的字序列进行处理,得到未规范化的医疗文本的字序列编码表示,具体为:
X=[x1,x2…,xn]表示未规范化的医疗文本的字序列,V=[v1,v2,…,vn]表示未规范化的医疗文本的字序列经过医疗文本预训练后字向量编码后的结果:vi=femb(xi);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111447771.1/2.html,转载请声明来源钻瓜专利网。