[发明专利]一种基于医学专业词典与统计算法的分词方法有效

专利信息
申请号: 201810478904.3 申请日: 2018-05-18
公开(公告)号: CN110502737B 公开(公告)日: 2023-02-17
发明(设计)人: 朱卫国;沙鸥;闻思源;赵从朴 申请(专利权)人: 中国医学科学院北京协和医院;睿医(北京)数据技术有限公司
主分类号: G06F40/289 分类号: G06F40/289
代理公司: 暂无信息 代理人: 暂无信息
地址: 100000 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 医学专业 词典 统计 算法 分词 方法
【权利要求书】:

1.一种基于医学专业词典与统计算法的分词方法,其特征在于,包括以下步骤:

S1、语料预处理:在分词算法执行前,对待分词语料进行断句处理,即利用一些特殊的符号将待分词语料分隔成多个短句,再进行分词处理,最后再把各个分词结果组合起来,形成最终的分词结果;分成短句之后,即可进行原子切分,经过原子切分后,待分词语料进一步构成了更短的短字串数组,针对原子切分后的短字串数组,找出所有候选词条,以备进一步分词;

S2、候选词条的表达与产生实现:

(1)候选词条的表达:原子切分之后通过两个循环把原子之间所有可能的组合,即所有候选词条都找出来;找出所有候选词条以后,将所有字串表示成带权有向无环图,针对带权有向无环图,通过最短路径求解,得出最终分词结果;

(2)基于改进型FMM和RMM产生候选词条:采用改进的正向最大匹配和逆向最大匹配方法找出所有候选词条,从而形成最为完整的候选词条集合;候选词条集合形成后,即需要对其进行分词结果判别,以形成优化分词结果,采用K-最短路径,对候选词条进行结果判别;

S3、分词结果判别:通过本专利所述改进型FMM和RMM算法,找出候选词条后,并转换为有向无环图,并通过求解模型求解有向无环图中始末结点间的最短路径K,该最短路径即为切分结果;

S4、分词结果的歧义消除:利用汉字二元语法关系、结合双字耦合度和t-测试差计算各个歧义位置连或者断的概率,并根据概率值来决定歧义位置的连通或切断;

S5、医学词典的构造;

S6、未登录词的发现:基于PMIk算法实现未登录词的发现且未登录词的发现主要分为以下四个阶段,①确定2元待扩展种子;②将2元待扩展种子扩展至2~n元;③过滤候选新词;④人工判定入库。

2.根据权利要求1所述的一种基于医学专业词典与统计算法的分词方法,其特征在于,所述步骤S1中特殊的符号包括空格、分段符显式切分标记和标点符号、数字、ASCII字符以及出现频率高、构词能力差的单字词以及数词、单字常用量词模式相关的隐式切分标记。

3.根据权利要求1所述的一种基于医学专业词典与统计算法的分词方法,其特征在于,所述步骤S2中的两个循环包括:第一个循环遍历整个原子序列;第二个循环是当找到一个原子后,不断把后面相邻的原子和该原子组合到一起,与词典数据库中词组作对比,直至词典数据库中不存在该组合。

4.根据权利要求1所述的一种基于医学专业词典与统计算法的分词方法,其特征在于,所述步骤S3中的求解模型如下:设S=C1C2…Cn为待切字串,其中Ci(i=1,2,…n)为单个的汉字字符即原子,n>=1为字串的长度;对应每个汉字字符,建立一个节点,所有节点组成一个集合,对该集合进行如下操作:

(1)对应每个汉字字符,根据其所表示的汉字字符在字符序列中的位置,建立一个结点数为n+1的带权有向无环图G,并对各个结点分别进行编号为:V0,V1,V2…Vm

(2)从每个结点i开始,循环一遍,若W=CiCi+1…Cj是一个词,把W加入到切分列表中,即在G中添加边Vi-1,Vj;记录该词组所有的信息,包括标出边的权值Lk;然后继续匹配W′=CiCi+1…CjCj+1是否为词,若为词,则在G中继续添加边、记录信息,然后再在末尾添加一个原子,再进行匹配,如此往复;若不为词则跳出此次循环,i++,进入下一个循环。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院北京协和医院;睿医(北京)数据技术有限公司,未经中国医学科学院北京协和医院;睿医(北京)数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810478904.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top