[发明专利]一种基于医学专业词典与统计算法的分词方法有效
| 申请号: | 201810478904.3 | 申请日: | 2018-05-18 |
| 公开(公告)号: | CN110502737B | 公开(公告)日: | 2023-02-17 |
| 发明(设计)人: | 朱卫国;沙鸥;闻思源;赵从朴 | 申请(专利权)人: | 中国医学科学院北京协和医院;睿医(北京)数据技术有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100000 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 医学专业 词典 统计 算法 分词 方法 | ||
1.一种基于医学专业词典与统计算法的分词方法,其特征在于,包括以下步骤:
S1、语料预处理:在分词算法执行前,对待分词语料进行断句处理,即利用一些特殊的符号将待分词语料分隔成多个短句,再进行分词处理,最后再把各个分词结果组合起来,形成最终的分词结果;分成短句之后,即可进行原子切分,经过原子切分后,待分词语料进一步构成了更短的短字串数组,针对原子切分后的短字串数组,找出所有候选词条,以备进一步分词;
S2、候选词条的表达与产生实现:
(1)候选词条的表达:原子切分之后通过两个循环把原子之间所有可能的组合,即所有候选词条都找出来;找出所有候选词条以后,将所有字串表示成带权有向无环图,针对带权有向无环图,通过最短路径求解,得出最终分词结果;
(2)基于改进型FMM和RMM产生候选词条:采用改进的正向最大匹配和逆向最大匹配方法找出所有候选词条,从而形成最为完整的候选词条集合;候选词条集合形成后,即需要对其进行分词结果判别,以形成优化分词结果,采用K-最短路径,对候选词条进行结果判别;
S3、分词结果判别:通过本专利所述改进型FMM和RMM算法,找出候选词条后,并转换为有向无环图,并通过求解模型求解有向无环图中始末结点间的最短路径K,该最短路径即为切分结果;
S4、分词结果的歧义消除:利用汉字二元语法关系、结合双字耦合度和t-测试差计算各个歧义位置连或者断的概率,并根据概率值来决定歧义位置的连通或切断;
S5、医学词典的构造;
S6、未登录词的发现:基于PMIk算法实现未登录词的发现且未登录词的发现主要分为以下四个阶段,①确定2元待扩展种子;②将2元待扩展种子扩展至2~n元;③过滤候选新词;④人工判定入库。
2.根据权利要求1所述的一种基于医学专业词典与统计算法的分词方法,其特征在于,所述步骤S1中特殊的符号包括空格、分段符显式切分标记和标点符号、数字、ASCII字符以及出现频率高、构词能力差的单字词以及数词、单字常用量词模式相关的隐式切分标记。
3.根据权利要求1所述的一种基于医学专业词典与统计算法的分词方法,其特征在于,所述步骤S2中的两个循环包括:第一个循环遍历整个原子序列;第二个循环是当找到一个原子后,不断把后面相邻的原子和该原子组合到一起,与词典数据库中词组作对比,直至词典数据库中不存在该组合。
4.根据权利要求1所述的一种基于医学专业词典与统计算法的分词方法,其特征在于,所述步骤S3中的求解模型如下:设S=C1C2…Cn为待切字串,其中Ci(i=1,2,…n)为单个的汉字字符即原子,n>=1为字串的长度;对应每个汉字字符,建立一个节点,所有节点组成一个集合,对该集合进行如下操作:
(1)对应每个汉字字符,根据其所表示的汉字字符在字符序列中的位置,建立一个结点数为n+1的带权有向无环图G,并对各个结点分别进行编号为:V0,V1,V2…Vm;
(2)从每个结点i开始,循环一遍,若W=CiCi+1…Cj是一个词,把W加入到切分列表中,即在G中添加边Vi-1,Vj;记录该词组所有的信息,包括标出边的权值Lk;然后继续匹配W′=CiCi+1…CjCj+1是否为词,若为词,则在G中继续添加边、记录信息,然后再在末尾添加一个原子,再进行匹配,如此往复;若不为词则跳出此次循环,i++,进入下一个循环。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院北京协和医院;睿医(北京)数据技术有限公司,未经中国医学科学院北京协和医院;睿医(北京)数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810478904.3/1.html,转载请声明来源钻瓜专利网。





