[发明专利]中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统在审
| 申请号: | 201410142483.9 | 申请日: | 2014-04-11 |
| 公开(公告)号: | CN104978347A | 公开(公告)日: | 2015-10-14 |
| 发明(设计)人: | 郑光;何小鹃;吕诚;姜淼;牛旭艳;何冰;梁超;刘彪;郭保生;刘进;党蕾;李德芳;张戈;吕爱平 | 申请(专利权)人: | 中国中医科学院中医临床基础医学研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 刘东方 |
| 地址: | 100700 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 生物医学 文献 数据库 敏感 关键词 数据 挖掘 方法 系统 | ||
技术领域
本发明涉及文献数据库中的数据挖掘技术,具体涉及一种针对中文生物医学类文献数据库中敏感关键词的数据挖掘和发现技术。
背景技术
文献数据挖掘是指从海量文献中提取、整合并发现有用信息和知识点的过程,通过文献数据挖掘能够快速处理大量文献并得到特定领域的知识,文献数据挖掘涉及到数据挖掘、文本挖掘、自然语言处理和信息整合等多个研究领域。
以生物医学文献数据挖掘为例,生物医学文献数据挖掘研究的主要内容分为信息检索,实体识别,信息提取,文本挖掘和信息集成与整合等五个部分[Jensen LJ,Saric J,Bork P. Literature mining for the biologist:from information retrieval to biological discovery.Nat Rev Genet.2006Feb;7(2):119-29.]。五部分的任务各不相同,前面问题的解决构成了后面部分研究与发展的基础。就目前研究现状而言,从信息检索到信息集成与整合,方法研究的成熟度依次递减,而数据挖掘发现的潜力却依次递增。生物医学领域的文本挖掘和信息集成整合则依赖于对本领域知识的理解和应用,更依赖于从科学文献中挖掘出未知的生物医学知识的新理论和新方法。
世界上不少发达国家均借助数据挖掘和信息整合技术对英文的生物医学文献数据库进行了大量疾病、诊断和西药的相关数据挖掘发现研究,实现了英文文献中疾病、诊断和西药的挖掘发现,为专业研究人员提供了方便获取疾病、诊断和西药知识及潜在知识的新方法新途径。
然而,由于语言和文化背景的不同,英文文献中疾病、诊断和西药的挖掘发现的挖掘方法和途径还无法在中文的生物医学文献数据库中实现疾病、证候、症状、中药和西药的数据挖掘。
因此,如何在中文的生物医学文献数据库中实现疾病名称、证候名称、症状名称、中药名称和西药名称的数据挖掘,则是现有技术方法和途径中有待解决的问题。
周雪忠等(周雪忠.文本挖掘在中医药中的若干应用研究.杭州:浙江大学,2004.)采用文本挖掘技术从中医药临床文献库中挖掘临床复方配伍知识,同时利用结构化预处理方法建立结构化的药物组成记录,在此基础上进行临床复方的药物组成和药物科属配伍规律知识发现研究,对中药复方知识发现研究进行了初步尝试。姬航宇等对医学古籍《伤寒论》及《金匾要略》中的用量策略进行了文本挖掘研究(姬航宇,焦拥政,连凤梅,等.《伤寒论》及《金匾要略》用量策略的文本挖掘研究.中华中医药杂志,2012,(1):19-22.)。庄力等利用信息抽取技术建立了从Web形式的中医药文献资料中抽取结构化中医临床诊疗信息的垂直搜索系统TC-MVSE(庄力.中医临床诊疗垂直搜索系统研究.北京:北京交通大学,2009.)。
但是这些研究都没有系统的挖掘中文生物医学文献数据库,从而实现疾病名称、证候名称、症状名称、中药名称和西药名称的提取和关联。
发明内容
针对现有技术中存在的现状,本发明首次提出并实现了疾病、证候、症状、中药和西药名称的提取和关联。因此本发明提供了一种中文生物医学文献数据库中敏感关键词的数据挖掘方法和系统,具体提供一种中文生物医学文献数据库中的疾病名称、证候名称、症状名称、中药名称和/或西药名称的数据挖掘的方法及系统,其可实现在中文的生物医学文献数据库中的疾病、证候、症状、中药和西药知识的挖掘和发现。
本发明所述中文医药文献数据库中的疾病、证候、症状、中药和西药数据挖掘的方法,包括如下步骤:
1)构建结构化的能够进行数据挖掘的敏感关键词数据库,所述敏感关键词选自:疾病名称、证候名称、症状名称、中药名称和西药名称中的一种、两种或两种以上组合;优选疾病名称、证候名称、症状名称、中药名称和西药名称的组合;
2)下载非结构化的中文生物医学文献数据库中主题数据,并将非结构化的数据转换成本地结构化的信息,存储到本地结构化文献数据库中;
3)以结构化的敏感关键词数据库的标准控制词表为依据,以本地结构化的文献数据库中敏感关键词为挖掘和发现对象,通过对中文生物医学数据库的数据结构的分析以及对数据的转换和提取,整理出结构化的敏感关键词,完善敏感关键词列表,并实现对中文生物医学文献数据库中敏感关键词的相关文本的挖掘和标注;
4)去除数据挖掘中的噪音,并相应修改中文文献文本的挖掘结果,即得相应的数据挖掘结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国中医科学院中医临床基础医学研究所,未经中国中医科学院中医临床基础医学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410142483.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示控制方法、装置及终端
- 下一篇:一种网页处理方法、装置及用户终端





