[发明专利]一种基于深度学习的中文病案分词方法在审
| 申请号: | 202010312483.4 | 申请日: | 2020-04-20 |
| 公开(公告)号: | CN111523320A | 公开(公告)日: | 2020-08-11 |
| 发明(设计)人: | 刘勇国;郑子强;杨尚明;李巧勤 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 中文 病案 分词 方法 | ||
1.一种基于深度学习的中文病案分词方法,其特征在于,包括以下步骤:
S1、分别构建中医领域词典及字嵌入字典;
S2、利用所述中医领域词典,构建中医病案字符的特征向量;
S3、利用双向长短期记忆网络BiLSTM分别对所述特征向量和字嵌入字典中字符的字向量进行编码,得到特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态;
S4、将所述特征向量编码后的隐藏状态和字嵌入编码后的隐藏状态进行级联,得到最终隐藏状态;
S5、将所述最终隐藏状态输入至CRF层进行分词序列的预测处理,得到预测标签序列,并对预测标签序列进行评分;
S6、根据评分结果,利用随机梯度下降法最小化预测标签序列与真实标签序列之间的误差;
S7、根据误差筛选出评分最高的分词序列,并将评分最高的分词序列作为预测序列,完成对中文病案的分词处理。
2.根据权利要求1所述的基于深度学习的中文病案分词方法,其特征在于,所述步骤S2包括以下步骤:
S201、将中医病案以“,”和“。”进行分句,得到句子集合X,并给定句子x=(x1,x2,...,xn),x∈X,其中,n表示句子中的字数;
S202、根据所述中医领域词典和句子集合X中的字符上下文信息,并利用预设的特征模板生成中医病案字符的特征向量。
3.根据权利要求2所述的基于深度学习的中文病案分词方法,其特征在于,所述步骤S202中预设的特征模板包括:
2元特征模板:xk-1xk,xkxk+1;
3元特征模板:xk-2xk-1xk,xkxk+1xk+2;
4元特征模板:xk-3xk-2xk-1xk,xkxk+1xk+2xk+3;
5元特征模板:xk-4xk-3xk-2xk-1xk,xkxk+1xk+2xk+3xk+4;
其中,xk-4表示输入句子中的第k-4个字符,xk-3表示输入句子中的第k-3个字符,xk-2表示输入句子中的第k-2个字符,xk-1表示输入句子中的第k-1个字符,xk表示输入句子中的第k个字符,xk+1表示输入句子中的第k+1个字符,xk+2表示输入句子中的第k+2个字符,xk+3表示输入句子中的第k+3个字符,xk+4表示输入句子中的第k+4个字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010312483.4/1.html,转载请声明来源钻瓜专利网。





