[发明专利]一种基于贝叶斯统计学习的医学古汉语句子切分方法有效

申请号：	201710800571.7	申请日：	2017-09-07
公开（公告）号：	CN107491439B	公开（公告）日：	2020-05-19
发明（设计）人：	王亚强;刘胤;唐聃;舒红平	申请（专利权）人：	成都信息工程大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/284;G06F40/289;G06F16/35
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	夏艳
地址：	610225 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于贝叶斯统计学习医学古汉语句子切分方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于贝叶斯统计学习的医学古汉语句子切分方法，其特征在于，在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上，对于该方法所需的特征属性项再添加二元组与三元组为特征属性或者进行一元组、二元组、三元组多样特征属性组合，得到多组实验数据结果，最后得出最佳模型；进而完成医学古汉语句子切分任务；

所述基于贝叶斯统计学习的医学古汉语句子切分方法，具体包括：

对一定量的数据文本进行手工标注：

将手工标注的数据文本用来训练朴素贝叶斯模型的分类器；将训练数据集通过朴素贝叶斯方法计算得到断句分类器；根据分类器的数据值，再通过朴素贝叶斯模型将新的数据集进行断句处理，最终得到分句结果；在实验最后，提出对于朴素贝叶斯的医学古汉语文本断句性能指标，以及分析数据结果；

使用朴素贝叶斯分类器将剩余文本进行断句标注处理，对实验数据结果进行分析；

使用提取标注的结果内容按照处理任务语料库所需的文本规则，建立医学古汉语文本的句子识别语料；

对一定量的数据文本进行手工标注，具体包括：针对医学古文本中句子识别的转化及句子的标注；直接关注句子的开头和结尾处，之后再使用预先规定好的记号，进行标签标记；标签内为有效句子，标签外则无效；

制定文本处理的断句规则：提出表示句子“开始”和“结尾”的特征如何得到，再接着，使用文本句子特征提取方法，制定文本处理的断句规则；

表征句子结束的归纳：根据标点的特性明确说明对于句子的结束位置所对应的符号标记，然而再根据这些特点对实际内容进行分析；

表征句子开始的归纳：分析开始特征时优先分析开始特征是否带有一些符号特征，从而再根据这些特征对句子开始像句子结束一样快速标记；

原文部分内容缺失：根据原文本上下文关系得到文本内容有所缺失，以及查阅资料后得出一些断句规则。

2.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法，其特征在于，数据集包括：将中国古代医学名著作为数据分析的基础数据库，采用随机抽取章节的方式提取了40％的章节作为实验数据集，然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理；标注完成以后将数据集按照不同比例分配进行实验；最后，测试实验模型是否有过拟合现象的出现；

所述性能指标的评估，包括：

利用标注的查准率LP、查全率LR和F1值用于评估断句三种标签的性能，对实验方法的性能进行有效的判断；

利用标注的查准率LP、查全率LR定义如下：

在实际应用中，只要一个值较高，另一个值就必然有所牺牲；所以在对一个分类器进行评估的时候,采用LF：

其中两个值的调和平均会更加接近两个数中较小的那个；因此，如果LF很高的话，那么LP和LR都会很高；

所述过拟合现象：在调试一个统计模型时，使用参数过多，当可选择的参数的自由度超过数据集中所包含内容时，会减少或破坏模型一般化的能力更甚于适应训练数据集；过拟合不只取决于参数个数和数据集，也跟模型架构与数据集的一致性有关。

3.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法，其特征在于，所述朴素贝叶斯的方法，包括：

首先，朴素贝叶斯模型是基于贝叶斯准则与特征条件独立假设分类的；而分类任务被看作为给定一个测试样例d后估计它的后验概率，计算式表达为

Pr(C＝c_j|d)；

接着，实验分析哪个类别c_j对应概率最大，再将这个类别便赋予样例d；然后，认为在数据集D中，令其中各元素为用离散值表示的属性集合，令C为具有不通知的类别属性；再接着，给定一个测试样例d，得到其对应属性值，其表达式如下：

d＝A₁＝a₁，…，A_|A|＝a_|A|；

由于预测类别是c_j，那么Pr(C＝c_j|A₁＝a₁，…，A_|A|＝a_|A|)最大；c_j被称为最大后验概率MAP假设；根据贝叶斯准则，其中在此被表示为：