[发明专利]一种基于深度学习的中文病案分词方法在审

专利信息
申请号: 202010312483.4 申请日: 2020-04-20
公开(公告)号: CN111523320A 公开(公告)日: 2020-08-11
发明(设计)人: 刘勇国;郑子强;杨尚明;李巧勤 申请(专利权)人: 电子科技大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/242;G06N3/04;G06N3/08
代理公司: 成都正华专利代理事务所(普通合伙) 51229 代理人: 陈选中
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 中文 病案 分词 方法
【说明书】:

发明提供了一种基于深度学习的中文病案分词方法,分别构建中医领域词典及字嵌入字典;构建中医病案字符的特征向量;利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码;将编码后的两部分隐藏状态进行级联;利用CRF层进行分词序列预测,得到预测标签序列,并对预测标签序列进行评分;利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差,将评分最高的序列作为预测序列。本发明实现了上下文信息和局部信息相融合,有效识别在中医病案训练数据中没有出现过的生词问题,能够有效解决歧义问题,同时,本发明可以通过替换库文本和词典,直接应用于其他领域,具有特定领域普遍适用性。

技术领域

本发明属于文本分词技术领域,尤其涉及一种基于深度学习的中文病案分词方法。

背景技术

在中医领域,中医病案是中医传承与创新的重要载体之一,记录了中医诊疗全过程,包括病人的个人信息、症状、证候、治法、处方和药物等信息,拥有层次丰富的医疗知识。近年来随着人工智能、机器学习的发展及在医疗领域的应用,利用自然语言处理技术对中医病案进行分析,挖掘其中的诊疗知识成为可能,而分词是利用计算机进行自然语言处理的首要任务,是计算机分析、理解自然语言的基础。成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言,常用的中文分词方法包括基于词典和基于统计与机器学习这两种算法。基于词典的算法通常是根据字符串进行匹配,扫描字符串,如果发现字符串的子串和词相同,就算匹配,这种分词算法速度快,实现简单,包括正向最大匹配法、逆向最大匹配法和双向匹配分词法。基于统计的分词方法首先利用人工标注的词性和统计特征对中文进行建模,即根据观测到的数据对模型参数进行训练,然后在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果,常用算法包括HMM、CRF、SVM、深度学习等。

由于中医病案是非结构化文本,文本中的每一个句子都带有记录者自身的用语习惯,且大都语句短小,信息凝练,增加了病案分词难度。目前,由于中医领域的文本分词困难,大多数针对中医领域的自然语言处理任务都是基于字进行处理的,而鲜有对中医医案分词进行研究,已有多项实验结果表明,当中文分词结果达到较高的水平时,基于词的自然语言处理任务比基于字的效果更好。因此,为了实现中医领域的智能化和现代化,亟需一种能够准确处理中医病案并分词的方法,如果仅使用基于词典和基于统计的分词算法,已无法满足在中医领域的高级自然语言处理任务的要求。

基于词典的分词方法虽然简单,但是无法解决歧义词和未登录词的问题。歧义的例子,如“南京市长江大桥”可分词为“南京/市长/江/大桥”和“南京市/长江大桥”。未登录词即词典中没有出现的词,也会导致分词效果欠佳。

基于统计和机器学习的分词方法能够处理歧义的问题,但处理未登录词的能力与训练本文相关,效果比基于词典的算法更好,但是需要大量的人工标注数据,以及较慢的分词速度。

在通用的英文文本上,现有的基于统计和机器学习的分词器,其字符分词准确率可高达97.5%,而同样的分词器却在中文分词上表现欠佳,这是由于中文与英文在字、词、语法、语义上都表现出巨大的差异,尤其是在中医病案这种特定领域,语句短小,语义凝练,并且还有一些中医领域的特殊词汇,如“阴阳”、“虚实”、“寒热”等,因此制定一种能够适用于特定领域的分词方法很有必要。

发明内容

针对现有技术中的上述不足,本发明提供的一种基于深度学习的中文病案分词方法,以解决未登录词和歧义词的问题。

为了达到以上目的,本发明采用的技术方案为:

本方案提供一种基于深度学习的中文病案分词方法,包括以下步骤:

S1、分别构建中医领域词典及字嵌入字典;

S2、利用所述中医领域词典,构建中医病案字符的特征向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010312483.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top