[发明专利]一种基于贝叶斯统计学习的医学古汉语句子切分方法有效

专利信息
申请号: 201710800571.7 申请日: 2017-09-07
公开(公告)号: CN107491439B 公开(公告)日: 2020-05-19
发明(设计)人: 王亚强;刘胤;唐聃;舒红平 申请(专利权)人: 成都信息工程大学
主分类号: G06F40/211 分类号: G06F40/211;G06F40/284;G06F40/289;G06F16/35
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 夏艳
地址: 610225 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 贝叶斯 统计 学习 医学 古汉语 句子 切分 方法
【权利要求书】:

1.一种基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上,对于该方法所需的特征属性项再添加二元组与三元组为特征属性或者进行一元组、二元组、三元组多样特征属性组合,得到多组实验数据结果,最后得出最佳模型;进而完成医学古汉语句子切分任务;

所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:

对一定量的数据文本进行手工标注:

将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,再通过朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;

使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;

使用提取标注的结果内容按照处理任务语料库所需的文本规则,建立医学古汉语文本的句子识别语料;

对一定量的数据文本进行手工标注,具体包括:针对医学古文本中句子识别的转化及句子的标注;直接关注句子的开头和结尾处,之后再使用预先规定好的记号,进行标签标记;标签内为有效句子,标签外则无效;

制定文本处理的断句规则:提出表示句子“开始”和“结尾”的特征如何得到,再接着,使用文本句子特征提取方法,制定文本处理的断句规则;

表征句子结束的归纳:根据标点的特性明确说明对于句子的结束位置所对应的符号标记,然而再根据这些特点对实际内容进行分析;

表征句子开始的归纳:分析开始特征时优先分析开始特征是否带有一些符号特征,从而再根据这些特征对句子开始像句子结束一样快速标记;

原文部分内容缺失:根据原文本上下文关系得到文本内容有所缺失,以及查阅资料后得出一些断句规则。

2.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,数据集包括:将中国古代医学名著作为数据分析的基础数据库,采用随机抽取章节的方式提取了40%的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理;标注完成以后将数据集按照不同比例分配进行实验;最后,测试实验模型是否有过拟合现象的出现;

所述性能指标的评估,包括:

利用标注的查准率LP、查全率LR和F1值用于评估断句三种标签的性能,对实验方法的性能进行有效的判断;

利用标注的查准率LP、查全率LR定义如下:

在实际应用中,只要一个值较高,另一个值就必然有所牺牲;所以在对一个分类器进行评估的时候,采用LF:

其中两个值的调和平均会更加接近两个数中较小的那个;因此,如果LF很高的话,那么LP和LR都会很高;

所述过拟合现象:在调试一个统计模型时,使用参数过多,当可选择的参数的自由度超过数据集中所包含内容时,会减少或破坏模型一般化的能力更甚于适应训练数据集;过拟合不只取决于参数个数和数据集,也跟模型架构与数据集的一致性有关。

3.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,所述朴素贝叶斯的方法,包括:

首先,朴素贝叶斯模型是基于贝叶斯准则与特征条件独立假设分类的;而分类任务被看作为给定一个测试样例d后估计它的后验概率,计算式表达为

Pr(C=cj|d);

接着,实验分析哪个类别cj对应概率最大,再将这个类别便赋予样例d;然后,认为在数据集D中,令其中各元素为用离散值表示的属性集合,令C为具有不通知的类别属性;再接着,给定一个测试样例d,得到其对应属性值,其表达式如下:

d=A1=a1,…,A|A|=a|A|

由于预测类别是cj,那么Pr(C=cj|A1=a1,…,A|A|=a|A|)最大;cj被称为最大后验概率MAP假设;根据贝叶斯准则,其中在此被表示为:

其中Pr(C=cj)是类别;cj为先验概率,用于训练样本估计;

对于Pr(A1=a1,…,A|A|=a|A|C=cj),展开得到:

Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)Pr(A2=a2,…,A|A|=a|A|C=cj);

再接着第二项Pr(A2=a2,…,A|A|=a|A||C=cj)递归展开;假设所有属性都是条件独立于类别C=cj,即准确的表示:

Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=Pr(A1=a1|C=cj),

同理可推,得到:

之后,再从训练数据中统计的得到先验概率Pr(C=cj)和条件概率Pr(Ai=ai|C=cj),而这些的计算如下:

所以根据上面公式推导出,在给定测试样例的情况下,通过计算下面的式子来得出最有可能的类别:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710800571.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top