[发明专利]一种传统药物专利文献的信息提取方法、系统和装置有效
| 申请号: | 200910209450.0 | 申请日: | 2009-10-30 |
| 公开(公告)号: | CN101697164A | 公开(公告)日: | 2010-04-21 |
| 发明(设计)人: | 李素建;刘晓波;张晶 | 申请(专利权)人: | 北京东方灵盾科技有限公司;北京大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 传统 药物 专利 文献 信息 提取 方法 系统 装置 | ||
技术领域
本发明涉及信息检索领域,尤其涉及一种传统药物专利文献的信息提取方法、系统和装置。
背景技术
目前,自动标引的研究主要集中在图书情报学、语言学和人工智能等领域。自动标引的发展主要表现为理论性研究,没有规定其标引的应用领域,由于不同应用领域中对待标引文档的标引特殊性,常规的标引往往不能将其中的特殊消息标引出来,限制了自动标引在实际需要中的应用。
利用自动标引对专利文献资料进行标引的应用很少,且不同领域的专利文献都有其特殊性,对不同领域的专利文献进行标引需要建立特定的知识库,以提高自动标引的准确性和可靠性。在传统药物专利文献的标引过程中,由于传统药物专利文献中包含不同类型的相关信息,例如传统药物的名称信息、方剂信息、治疗作用信息、制备方法信息和药物制剂信息等,要实现对各相关信息的标引需要建立相应的标引知识库。且在传统药物的标引过程中,很多药物的组方都是由几十味药物组成,如果只抽取其中部分关键词就会造成药物信息的漏标。另外,在传统药物的领域,一个重要的信息就是中药的方剂信息,按照一般的自动标引方法,只考虑将药物标引词正确地抽取出来,而不考虑抽取专利文献中出现的方剂的剂量信息。在现有技术方案中,没有对传统药物专利文献中的传统药物相关信息进行标引与提取,特别是关于传统药物专利文献中传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息的标引与信息提取。
发明内容
本发明实施例提供了一种传统药物专利文献的信息提取方法、系统和装置,实现了对传统药物专利文献的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息的标引和信息提取,并将提取的传统药物相关信息与传统药物专利文献相关联,以便于对传统药物相关信息的检索。
本发明提供了一种传统药物专利文献的信息提取方法,所述方法包括如下步骤:
建立分类标引关键词库,所述分类标引关键词库包括传统药物词库、方剂信息提取词库、治疗作用词库和传统药物通用词库;
对待标引的所述传统药物专利文献进行格式转换处理、对待标引的所述传统药物专利文献进行分词处理、对待标引的所述传统药物专利文献进行串频统计;
根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标引;
提取所述传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述传统药物相关信息是否有效;
当判断结果为是时,将所述传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息与所述传统药物专利文献相关联,并存储在相应的传统药物标引数据库中;
当判断结果为否时,对所述分类标引关键词库中标引关键词进行增添、修改、替换或删除,更新所述分类标引关键词库。
优选的,根据所述分类标引关键词库中标引关键词对待标引的传统药物专利文献进行标引,包括:
根据传统药物词库对所述传统药物专利文献中的传统药物名称进行标引;根据方剂信息提取词库对所述传统药物专利文献中的传统药物方剂信息进行标引;根据治疗作用词库对所述传统药物专利文献中的传统药物治疗作用信息进行标引;根据传统药物通用词库对所述传统药物专利文献中的传统药物制备方法、药物制剂等其他信息进行标引。
优选的,对待标引的所述传统药物专利文献进行串频统计,包括:
统计所述传统药物专利文献中字符串出现的频率,并判断所述字符串的出现频率是否高于预设的阈值,当判断结果为是时,对所述字符串进行标识。
优选的,提取所述传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述传统药物相关信息是否有效,包括:
在所述传统药物专利文献的标引结果中提取所述传统药物专利文献中包含的传统药物名称信息、方剂信息、治疗作用信息、制备方法信息、药物制剂信息等传统药物相关信息,并判断提取的所述传统药物相关信息是否有效;
在所述传统药物专利文献的串频统计结果中提取经过标识后的所述字符串,并判断提取的所述字符串是否有效。
优选的,判断提取的所述字符串是否有效,之后还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京东方灵盾科技有限公司;北京大学,未经北京东方灵盾科技有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910209450.0/2.html,转载请声明来源钻瓜专利网。





