[发明专利]医学文献分类模型训练方法、医学文献分类方法及其装置有效
申请号: | 201710358918.7 | 申请日: | 2017-05-19 |
公开(公告)号: | CN108959236B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 张喜媛;曾刚;李林峰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06K9/62 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 陈姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 文献 分类 模型 训练 方法 及其 装置 | ||
本申请公开了一种医学文献分类模型训练方法、医学文献分类方法及其装置,该训练方法,包括:从样本文献中提取待标注数据;利用预先建立的分类体系和标注规则库,对待标注数据进行标注,其中分类体系和标注规则库基于用户对医学文献的分类需求而构建,分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。根据本申请实施例提供的技术方案,通过对文献进行基于专业分类体系和标注规则的分类,能够解决现有医学文献的分类不够细化和专业的问题。
技术领域
本公开一般涉及计算机技术领域,尤其涉及一种医学文献分类模型训练方法、医学文献分类方法及其装置。
背景技术
目前市面上提供的在线文献服务平台,与医学相关的文献服务较少且不够专业。例如以下几个平台:
万方:对于医学文献,万方从医药、卫生方面对医疗相关的文献进行了粗粒度的划分。
Pubmed:提供生物医学方面的论文搜寻以及摘要,其核心主题为医学,PubMed的文献不包括期刊论文的全文,可提供指向全文提供者(付费或免费)的链接。
上述两个平台均未提供完备的医学文献的分类,且仅从一个维度进行类别划分,使得医生查找某一类文献时,不能很好地满足搜索需求。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种准确度高且能够进行多维度分类的医学文献分类模型训练方法、医学文献分类方法及其装置。
第一方面,本申请提供一种医学文献分类模型的训练方法,包括:
从样本文献中提取待标注数据;
利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。
第二方面,本申请提供一种医学文献分类方法,包括:
从待分类文献中提取待分类数据;
利用根据本申请提供的各实施例的医学文献分类模型的训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
将所述预测概率与设定阈值进行比较,确定分类结果。
第三方面,本申请提供一种医学文献分类模型的训练装置,包括:
提取单元:配置用于从样本文献中提取待标注数据;
标注单元:配置用于利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
训练单元:配置用于将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型。
第四方面,本申请提供一种医学文献分类装置,其特征在于,包括:
提取单元:配置用于从对待分类文献中提取待分类数据;
预测单元:配置用于利用本申请提供的各实施例的医学文献分类模型的训练装置训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
分类单元:配置用于将所述预测概率与设定阈值进行比较,确定分类结果。
第五方面,本申请提供一种设备,设备包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710358918.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文字中获取表达式的方法和装置
- 下一篇:一种文本分类方法、装置、介质及设备