[发明专利]一种基于贝叶斯统计学习的医学古汉语句子切分方法有效
| 申请号: | 201710800571.7 | 申请日: | 2017-09-07 |
| 公开(公告)号: | CN107491439B | 公开(公告)日: | 2020-05-19 |
| 发明(设计)人: | 王亚强;刘胤;唐聃;舒红平 | 申请(专利权)人: | 成都信息工程大学 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/289;G06F16/35 |
| 代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 夏艳 |
| 地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 贝叶斯 统计 学习 医学 古汉语 句子 切分 方法 | ||
本发明属于语言处理领域,公开了一种基于贝叶斯统计学习的医学古汉语句子切分方法,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础之上,对于特征属性再添加二元组与三元组或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而实现医学古汉语句子切分任务。本发明与实际处理文本内容相结合,通过本实验方法将现有技术各项特征的F值可提高至少25个百分点,本发明中系统地分析与归纳了医学古汉语文本句子识别规则,实现了可以应用于实际中医医学领域的处理方法,建立了医学古汉语文本的句子识别语料库,进一步让科研成果发挥出更大的作用。
技术领域
本发明属于语言处理领域,尤其涉及一种基于贝叶斯统计学习的医学古汉语句子切分方法。
背景技术
自然语言处理技术具有很强的语言相关性,在国外已将较成熟的语言处理技应用于医疗信息与病人病例史的文本的处理中,以便帮助医生从巨大的医学相关信息数据中提取关键信息,并将其转化为有效的知识体系,再进一步加以应用到相关工作中,而在国内对于全国各省市的各大医疗机构关于其医学领域大数据现代智能化处理工作,也在紧罗密布的进行中。
在国内各地图书馆以及各大科研机构中收藏了大量的医学中文古籍,学者们为了便于研究者更好更方便地研究,已经对大部分的典籍进行数字化处理。于是对于这些医学中文古籍的现代化智能处理也顺理成章地被提上了日程,但典籍数字话后,没有确定的科学处理方法,导致典籍的实际处理成本提高。
古代的汉语以文本形式存在的历史,可以是从五·四运动追溯到有文字记载时期,超过了三千年的时间跨度了。可见古汉语文本的历史悠久,而对于其中医学领域的文本文献更是数不胜数。但现如今,将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。而现已应用的技术,由于处理规定的不统一性和所需处理任务的语料库缺乏,而导致典籍处理的效果低下,这与原有将中医典籍现代提高效率、降低成本的科学化处理初衷相违背。
综上所述,现有技术存在的问题是:现有将较成熟的现代汉语处理技应用于国内尚不成熟的中文医学文本处理技术中,这些方法在面向医学古汉语文本的处理性能时,是否像在现代文本中一样的良好,都有待进一步验证。现在应用的技术,由于处理方法中的规定不统一和处理任务所需的语料库的大量缺乏而导致处理成本偏高,处理的效果低下的结果。
发明内容
针对现有技术存在的问题,本发明提供了一种基于贝叶斯统计学习的医学古汉语句子切分方法。
本发明是这样实现的,一种基于贝叶斯统计学习的医学古汉语句子切分方法,所述基于贝叶斯统计学习的医学古汉语句子切分方法在句子识别的朴素贝叶斯方法中再添加二元组与三元组的为特征属性或进行一元组、二元组、三元组多样特征属性组合,得出最佳模型;实现医学古汉语句子切分。
进一步,所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:
对一定量的数据文本进行手工标注:
将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;
使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;
提取标注内容建立医学古汉语文本的句子识别语料。
进一步,对一定量的数据文本进行手工标注,具体包括:针对处理医学古文本中,句子识别的转化句子的标注;直接关注句子的开头和结尾处,之后在使用预先规定好的记号,进行标签标记;标签内为有效句子,标签外则无效;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710800571.7/2.html,转载请声明来源钻瓜专利网。





