[发明专利]基于领域本体的乳腺超声检查报告结构化方法有效
| 申请号: | 201910594570.0 | 申请日: | 2019-07-03 |
| 公开(公告)号: | CN110413963B | 公开(公告)日: | 2022-11-25 |
| 发明(设计)人: | 陈德华;刘淑君;乐嘉锦;朱立峰;董屹婕 | 申请(专利权)人: | 东华大学;上海交通大学医学院附属瑞金医院 |
| 主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/247;G16H15/00 |
| 代理公司: | 上海泰能知识产权代理事务所(普通合伙) 31233 | 代理人: | 宋缨;钱文斌 |
| 地址: | 201620 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 领域 本体 乳腺 超声 检查 报告 结构 方法 | ||
1.一种基于领域本体的乳腺超声检查报告结构化方法,其特征在于,包括以下步骤:
(1)对乳腺超声报告进行预处理,得到文本描述块;
(2)对得到的文本描述块基于领域本体语义树获取分支子树路径;具体包括以下子步骤:
(21)采用Jieba分词工具和乳腺医学自定义词典,对文本描述块做分词处理;
(22)依次扫描文本描述块中的每个分词,并判断该分词是否为乳腺超声领域本体分支子树下的指标值节点,若是则在乳腺超声领域本体分支子树下的指标值节点上进行标记,对于由数字单位构成的定量数值词,将短句中的其它词与指标值节点进行内容匹配,并将定量数据词写入该指标节点的子节点,从而确定一条以根节点为入端,以该子节点为终端的路径;
(23)若在乳腺超声领域本体分支子树中,存在指标节点内容相同的多条路径,则将指标值节点的父节点内容和短句中的其它词匹配,以去除误标记的指标值节点,确定与短句正确匹配的路径;
(24)将步骤(23)中得到的路径,添加至分支子树对应的路径集合中;
(25)重复迭代,直至所有的文本描述块中的语句全部处理完为止;
(3)以自顶向下、广度优先的方式,生成乳腺超声语义子树;
(4)将生成的乳腺超声语义子树转化为以表结构存储的结构化数据。
2.根据权利要求1所述的基于领域本体的乳腺超声检查报告结构化方法,其特征在于,所述步骤(1)包括以下子步骤:
(11)构建乳腺医学自定义词典,并使用该自定义词典对乳腺超声报告进行中文分词;
(12)针对乳腺超声报告中的同义词现象,采用Word2Vec模型,使用词向量表征词特征,构建同义词表,用出现频率最高的词替换乳腺超声报告中的其它同义词;
(13)根据乳腺病理学和解剖学的先验知识,对乳腺超声文本进行切分处理,并以切分后的文本描述块做为下一阶段的处理单位。
3.根据权利要求1所述的基于领域本体的乳腺超声检查报告结构化方法,其特征在于,所述步骤(22)中乳腺超声领域本体分支子树以XML形式表示。
4.根据权利要求1所述的基于领域本体的乳腺超声检查报告结构化方法,其特征在于,所述步骤(3)包括以下子步骤:
(31)将各个文本描述块对应的分支子树路径集合,添加至语义子树路径集合中;
(32)获取语义子树路径集合的最大层数,以“乳腺超声语义子树”作为乳腺超声语义子树的根节点内容;
(33)从语义子树路径集合的第二层节点开始,依次对比每条路径的该层节点信息,去除节点内容重复的信息;
(34)若该层去重后的节点数量为1,表示该层节点信息相同,则生成上一节点的子节点;若该层去重后的节点数量大于1,表示上层节点和该层节点均存在多个分支,则针对去重后的每个节点,生成该节点所在路径中上一节点的子节点;
(35)重复上述操作,直至语义子树路径集合的最后一层节点处理完为止。
5.根据权利要求1所述的基于领域本体的乳腺超声检查报告结构化方法,其特征在于,所述步骤(4)中将生成乳腺超声语义子树以XML形式表示,将指标和指标值信息按行写入关系型表中,得到乳腺超声检查报告结构化结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学;上海交通大学医学院附属瑞金医院,未经东华大学;上海交通大学医学院附属瑞金医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910594570.0/1.html,转载请声明来源钻瓜专利网。





