[发明专利]一种基于深度学习的中文病案分词方法在审

专利信息
申请号: 202010312483.4 申请日: 2020-04-20
公开(公告)号: CN111523320A 公开(公告)日: 2020-08-11
发明(设计)人: 刘勇国;郑子强;杨尚明;李巧勤 申请(专利权)人: 电子科技大学
主分类号: G06F40/289 分类号: G06F40/289;G06F40/242;G06N3/04;G06N3/08
代理公司: 成都正华专利代理事务所(普通合伙) 51229 代理人: 陈选中
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 中文 病案 分词 方法
【权利要求书】:

1.一种基于深度学习的中文病案分词方法,其特征在于,包括以下步骤:

S1、分别构建中医领域词典及字嵌入字典;

S2、利用所述中医领域词典,构建中医病案字符的特征向量;

S3、利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码,得到特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态;

S4、将所述特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态进行级联,得到最终隐藏状态;

S5、将所述最终隐藏状态输入至CRF层进行分词序列的预测处理,得到预测标签序列,并对预测标签序列进行评分;

S6、根据评分结果,利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差;

S7、根据误差筛选出评分最高的分词序列,并将评分最高的分词序列作为预测序列,完成对中文病案的分词处理。

2.根据权利要求1所述的基于深度学习的中文病案分词方法,其特征在于,所述步骤S2包括以下步骤:

S201、将中医病案以“,”和“。”进行分句,得到句子集合X,并给定句子x=(x1,x2,...,xn),x∈X,其中,n表示句子中的字数;

S202、根据所述中医领域词典和句子集合X中的字符上下文信息,并利用预设的特征模板生成中医病案字符的特征向量。

3.根据权利要求2所述的基于深度学习的中文病案分词方法,其特征在于,所述步骤S202中预设的特征模板包括:

2元特征模板:xk-1xk,xkxk+1

3元特征模板:xk-2xk-1xk,xkxk+1xk+2

4元特征模板:xk-3xk-2xk-1xk,xkxk+1xk+2xk+3

5元特征模板:xk-4xk-3xk-2xk-1xk,xkxk+1xk+2xk+3xk+4

其中,xk-4表示输入句子中的第k-4个字符,xk-3表示输入句子中的第k-3个字符,xk-2表示输入句子中的第k-2个字符,xk-1表示输入句子中的第k-1个字符,xk表示输入句子中的第k个字符,xk+1表示输入句子中的第k+1个字符,xk+2表示输入句子中的第k+2个字符,xk+3表示输入句子中的第k+3个字符,xk+4表示输入句子中的第k+4个字符。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010312483.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top