[发明专利]一种基于医学专业词典与统计算法的分词方法有效

专利信息
申请号: 201810478904.3 申请日: 2018-05-18
公开(公告)号: CN110502737B 公开(公告)日: 2023-02-17
发明(设计)人: 朱卫国;沙鸥;闻思源;赵从朴 申请(专利权)人: 中国医学科学院北京协和医院;睿医(北京)数据技术有限公司
主分类号: G06F40/289 分类号: G06F40/289
代理公司: 暂无信息 代理人: 暂无信息
地址: 100000 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 医学专业 词典 统计 算法 分词 方法
【说明书】:

发明公开了一种基于医学专业词典与统计算法的分词方法,包括以下步骤:语料预处理、候选词条的表达与产生实现、分词结果判别、分词结果的歧义消除、医学词典的构造和未登录词的发现。本发明有效解决了当前无针对中文医学语料的专用分词方法模型和系统的问题,提升中文医学语料分词准确率、召回率和F值等关键评价指标。

技术领域

本发明涉及中文医学文本的自然语言处理,具体是一种基于医学专业词典与统计算法的分词方法。

背景技术

自20世纪80年代初,中文信息处理领域提出自动分词以来,取得了一些重要的进展和成果,提出了许多中文分词方法,实现了许多中文分词系统,其中典型的分词系统有如下几个。北京航空航天大学的CDWS是我国第一个实用性的自动分词系统,在实现CDWS过程中,相关研究者在自动分词的理论上作了深入细致的探讨,首次论证了汉语自动分词的可行性,初步建立了一个描述书面汉语的计算模型,对自动分词的有关概念和术语都给出了明确的定义,并且把歧义切分字段也首次作了分类,具有很大的理论意义。清华大学也先后研制开发了SEG、SEGTAG分词系统。

复旦大学的分词系统对一般的人名识别效率很高。哈尔滨工业大学的分词系统是一种典型的运用统计的方法进行纯分词的分词系统。还有杭州大学改进的MM分词系统和北京大学计算语言学研究所研制的系统。中科院汉语词法分析系统ICTCLAS是目前较为满意的系统,在973评测中获得了第一名,该分词系统的主要是思想是先通过CHMM(层叠形马尔可夫模型)进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率,但是该系统为提高分词的召回率和准确率,在未登录词识别、重新切分等方面进行了相当多的语言处理,花费了太多时间,以致切分速度不是很快。另外还有Microsoft Research汉语句法分析器中的自动分词系统。

事实表明,并非有了成熟的分词算法,我们就能够轻松地解决中文医学分词过程中存在的问题。因为中文是一种十分复杂的语言,而让计算机去理解以临床病例为主的医学语料就更加困难了。对中文医学文本进行切分,面临的主要难:分词规范、歧义识别、新词识别、领域适用性。

中文分词过程中面临的最大问题在于歧义识别和新词发现,而医学语料分词具有极大的领域相关性,解决以上两点问题具有更大难度,如果采用通用中文分词系统,对于专业的医学临床术语并不能有效地切分,单纯地应用词典匹配方法或统计分词方法在医学领域中都很难达到较高的准确率,要达到较好效果,必须构建有效的中文医学专业词典,还需要良好的歧义消除和未登录词识别方法,综合使用才能达到良好效果。

发明内容

本发明对目前中文医学语料分词中歧义识别、新词发现、词典标准等关键技术问题,设计相关实现模型和方法,并实现一个实用的中文医学专业分词系统,从而解决中文医学自然语言处理的基础问题,为其它应用奠定医学自然语言的处理基础。

为实现上述目的,本发明提供如下技术方案:

一种基于医学专业词典与统计算法的分词方法,其特征在于,包括以下步骤:

S1、语料预处理:在分词算法执行前,对待分词语料进行断句处理,即利用一些特殊的符号将待分词语料分隔成多个稍微简单一点的短句,再进行分词处理,最后再把各个分词结果组合起来,形成最终的分词结果;分成短句之后,即可进行原子切分,经过原子切分后,待分词语料进一步构成了更短的短字串数组,针对原子切分后的短字串数组,找出所有候选词条,以备进一步分词;

S2、候选词条的表达与产生实现:

①候选词条的表达:原子切分之后通过两个循环把原子之间所有可能的组合,即所有候选词条都找出来;找出所有候选词条以后,将所有字串表示成带权有向无环图,针对带权有向无环图,通过最短路径求解,得出最终分词结果;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院北京协和医院;睿医(北京)数据技术有限公司,未经中国医学科学院北京协和医院;睿医(北京)数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810478904.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top