[发明专利]中医文本分词过程中的消歧方法、系统、设备及介质有效
| 申请号: | 201910722134.7 | 申请日: | 2019-08-06 |
| 公开(公告)号: | CN110502750B | 公开(公告)日: | 2023-08-11 |
| 发明(设计)人: | 袁锋;王冰;郑向伟;于凤洋 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/268;G06F16/35 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
| 地址: | 250358 山东省*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中医 文本 分词 过程 中的 方法 系统 设备 介质 | ||
1.中医文本分词过程中的消歧方法,其特征是,包括:
获取待分词的中医文本;对中医文本进行预处理,所述预处理包括:删除停用词、重复词和语气词;
对预处理后的中医文本进行分词处理;
对分词处理后的结果与预先构建的组合歧义词库进行匹配,从分词处理后的结果中,筛选出组合歧义词和非组合歧义词;将非组合歧义词存储到分词结果数据库中;
对筛选出的组合歧义词进行词频和词性标记,根据筛选出的组合歧义词的词性和词频,计算出当前组合歧义词的互信息向量,将互信息向量输入到预先训练好的支持向量机模型中,输出当前组合歧义词的类别是否为可拆分类别;根据类别实现对当前组合歧义词的拆分或不拆分处理;
根据筛选出的歧义词的词性和词频,计算出当前歧义词的互信息向量;具体步骤包括:
;(1)
;(2)
;(3)
;(4)
;(5)
其中,为特征词的词频因子;表示组合型歧义字段为“合”时特征词的词频,表示特征词在组合型歧义字段“合”时出现的医案数,表示组合型歧义字段为“合”时的所有的医案数;表示第一互信息向量,当组合型歧义字段为“合”时与上下文构成的词频互信息;表示第二互信息向量,当组合型歧义字段为“分”时与上下文构成的词频互信息;表示第三互信息向量,当组合型歧义字段“合”时与上下文的词性互信息;表示第四互信息向量,当组合型歧义字段“分”时与上下文的词性互信息;表示歧义字段的前一个词,表示歧义字段的前一个词的词性;表示歧义字段的后一个词,表示歧义字段的后一个词的词性;表示组合型歧义字段为不拆分处理的单个字段,表示组合型歧义字段为不拆分处理的单个字段的词性;与表示组合型歧义字段为能够拆分处理的两个字段;与表示组合型歧义字段为能够拆分处理的两个字段的词性。
2.如权利要求1所述的方法,其特征是,所述获取待分词的中医文本,包括中医病历文本,具体包括患者自述病情或医生诊断结论。
3.如权利要求1所述的方法,其特征是,所述对预处理后的中医文本进行分词处理,是利用中科院中文分词系统进行分词处理。
4.如权利要求1所述的方法,其特征是,预先构建的组合歧义词库,构建步骤为:
对所有数据集进行分词,将分词后的每个字段分别与其后最邻接的一个字段进行组合,若组合出来的词也存在于中医词典中,则将当前字段与其后最邻接的一个字段进行标注,再利用对所有标注的字段进行人工识别,若确实为组合词,则将标注的字段放入组合词库;
或者,
对所有数据集进行分词,将分词后的所有词进行统计;将每个词再单独进行第二次分词,若某个词能进行第二次的分词,则对能进行第二次分词的词进行标注,将标注的词提取出来,再利用人工对提取出来的词进行识别若确实为组合词,将该字段放入组合词库。
5.如权利要求1所述的方法,其特征是,
对筛选出的歧义词进行词频标记,是指对当前歧义词在当前中医文本中出现的频率进行标记;
对筛选出的歧义词进行词性标记,是指对当前歧义词在中医文本中的词性进行标记。
6.如权利要求1所述的方法,其特征是,预先训练好的支持向量机模型;具体训练步骤包括:
S41:选取若干份中医医案文本进行分词;
S42:将分词结果中的每个字段与预先构建的组合歧义词库匹配;进行歧义词识别,对歧义词进行标注:
若某个字段存在于组合歧义词库中,且该字段与其后一个字段的组合也存在于组合词库中,则对该字段进行标注,对其的标注表示为当前组合词为可拆分处理的形式;
若某个字段存在于组合歧义词库中,但该字段与其后一个字段的组合不存在于组合词库中,则对该字段进行标注,对其的标注表示为当前组合词为不可拆分处理的形式;
若某个字段不存在于组合词库中,则继续进行其他字段与组合歧义词库的匹配;
S43:分别计算出歧义词的互信息向量,得到向量;
S44:将向量和已知的当前歧义词是否可拆分类别代入支持向量机模型训练,得到训练好的支持向量机模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910722134.7/1.html,转载请声明来源钻瓜专利网。





