[发明专利]一种基于中医古籍文献的短语挖掘方法和系统有效
| 申请号: | 201910335367.1 | 申请日: | 2019-04-24 |
| 公开(公告)号: | CN110334337B | 公开(公告)日: | 2020-12-08 |
| 发明(设计)人: | 张德政;夏超;谢永红;贾麒;杨石兵;栗辉 | 申请(专利权)人: | 北京科技大学 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/36 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 中医 古籍 文献 短语 挖掘 方法 系统 | ||
本发明提供基于中医古籍文献的短语挖掘方法及系统,所述挖掘方法将短语挖掘技术、面向中医古籍文献的分词方法和语言知识库相结合,通过添加中医古文的停用词表以及高质量短语并使用面向中医古籍文献的分词方法进行分词,再利用分词后的文件和词映射生成的映射文件进行两次词性引导的短语分隔,保存模型和结果,并根据模型结果生成短语挖掘结果并回标。本发明基于远程监督方法,不需要人工标注语料,也不需要人工设计提取特征,只需要利用现有的公共知识库,节省了人力物力;从大量中医古文文献中提取高质量短语,只需进行有限的浅层语言分析,易操作,效率更高;同时,更加全面的利用古籍文献,从而对中医古籍文献中的短语进行高效、智能的挖掘。
技术领域
本发明属于信息处理及中医文献检索领域,具体涉及一种基于中医古籍文献的短语挖掘方法和系统。
背景技术
中医是有着数千年历史的医学技术,中医文献是一种传承中医科学与技术的重要媒介。中医文献的历史决定了中医文献不同于现代其他文献的独特性。中医文献卷帙浩繁,其中,中医古籍文献涉及的专有名词数量巨大,有众多的生僻字,如何更加有效、全面的利用和阅读中医古籍文献,影响着中医的发展和传承。
计算机与互联网技术的发展,改变了人们阅读文献的方式和速度。为了更快的学习和掌握中医理论,在治疗中更好的应用中医技术,也需要以更加高效的方式阅读、整理、存储中医文献。如何利用计算机与互联网技术进行中医古籍文献的挖掘,是知识工程中医领域中的重要内容。
现有技术中,一般通过现有的数据挖掘技术对中医文献进行挖掘。专利号为CN201611174644.8的中国专利,公开了一种基于数据挖掘的中医医学文献分类及存储方法,通过数据挖掘技术,对中医文献中的信息进行相应编码、标识和组合。但是,该技术并没有区分中医古籍文献与其他科技文献的不同之处,不能有针对性的对具有自己特点的中医古籍文献进行数据分析与处理,无法应用于古籍文献利用和检索。
发明内容
本发明要解决的技术问题是提供一种基于中医古籍文献的短语挖掘方法及系统,通过短语挖掘与古籍分词及中医古文语言知识库的结合,充分利用现有的公共知识库,对中医古籍文献进行高效、智能的短语挖掘。
为解决上述技术问题,本发明实施例提供一种基于中医古籍文献的短语挖掘方法,所述方法包括如下步骤:
步骤S1,在现有的语言知识库基础上添加中医古文的停用词表和高质量短语,建立包含中医古文的新语言知识库;
步骤S2,对中医古籍文献原始输入语料进行分词和词性标注,并将分词后的词和词性标签进行词映射并输出词映射文件;
步骤S3,读入所述停用词表和高质量短语,同时读入所述词映射文件,根据词映射文件对所述高质量短语进行词映射及对停用词表进行转化,输出转化后的停用词表和高质量短语词表,以及新加了词映射的词映射文件;
步骤S4,基于所述分词后的词和所述词映射文件,进行两次词性引导的短语分隔;
步骤S5,根据所述短语分隔生成模型,并保存短语分隔结果和模型,根据模型生成短语挖掘的单词和多词的质量结果;保存所述质量结果,并根据词映射文件生成短语挖掘结果;
步骤S6,根据短语挖掘结果,将挖掘出的短语按质量评分的阈值回标到原始输入语料中。
上述方案中,所述步骤S2中分词和词性标注,使用面向中医古籍文献的分词方法。
上述方案中,所述步骤S2进一步包括:对分词后的词进行映射后,将中医古籍文献的原始输入语料转化为词映射后的语料,使原始中文古文语料转化为计算机能够识别的输入。
上述方案中,所述步骤S4中词性引导的短语分隔,包括以下步骤:
步骤S401,加载原始输入语料、停用词表、新语言知识库的质量短语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910335367.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种美术设计用自动化排版装置
- 下一篇:分词方法、装置及设备





