[发明专利]医学文献分类模型训练方法、医学文献分类方法及其装置有效
申请号: | 201710358918.7 | 申请日: | 2017-05-19 |
公开(公告)号: | CN108959236B | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 张喜媛;曾刚;李林峰 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06K9/62 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 陈姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学 文献 分类 模型 训练 方法 及其 装置 | ||
1.一种医学文献分类模型的训练方法,其特征在于,包括:
从样本文献中提取待标注数据,所述待标注数据为各样本文献的标题、关键字和摘要中的一种或多种;
利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注,其中所述分类体系和标注规则库基于用户对医学文献的分类需求而构建,所述分类体系包括至少两个分类维度,每个分类维度包括至少两个文献类别,每个文献类别具有相关联的标注规则;
将标注数据作为训练数据对分类模型进行训练,得到医学文献分类模型;
所述利用预先建立的分类体系和标注规则库,对所述待标注数据进行标注包括:
根据预设的规则词列表中包括的多个规则类及其包含的多个规则词,匹配出所述待标注数据所涉及的一个或更多个规则类;
基于所述待标注数据所涉及的一个或更多个规则类,构建对应的规则类集树;
将所述构建的规则类集树与所述标注规则库进行匹配,将所匹配的标注规则所关联的文献类别标注为所述样本文献的文献类别。
2.根据权利要求1所述的方法,其特征在于,所述构建对应的规则类集树包括:
对待标注数据所涉及的规则类的任一组合方式作为规则类集树的一条分支;并且
所述将所述构建的规则类集树与所述标注规则库进行匹配包括:
将构建的规则类集树中的每条分支分别与标注规则库进行最大正向匹配。
3.根据权利要求1-2任一所述的方法,其特征在于,将标注数据作为训练数据对分类模型进行训练包括:
对所述标注数据进行特征提取;
根据所述特征构建最大熵分类模型作为所述医学文献分类模型。
4.根据权利要求1-2任一所述的方法,其特征在于,还包括:在所述待标注数据进行标注之前,对所述待标注数据进行过滤去噪处理。
5.根据权利要求1-2任一所述的方法,其特征在于,所述分类维度包括以下至少两项:文献类型、研究设计、研究对象、样本量。
6.一种医学文献分类方法,其特征在于,包括:
从待分类文献中提取待分类数据,所述待标注数据为各样本文献的标题、关键字和摘要中的一种或多种;
利用根据权利要求1-5任一所述训练方法训练后的医学文献分类模型对待分类数据进行分类预测,获得对应预测类别和对应预测概率;
将所述预测概率与设定阈值进行比较,确定分类结果。
7.根据权利要求6所述的方法,其特征在于,将所述预测概率与设定阈值进行比较,确定分类结果包括:
若所述预测概率不小于第一设定阈值,则确定所述预测类别为所述待分类文献的分类结果;
若所述预测概率不大于第二设定阈值,则将所述待分类文献的类别划分至指定类别;
若所述预测概率小于第一设定阈值大于第二设定阈值,则对所述标注规则库校正,以确定所属类别。
8.根据权利要求7所述的方法,其特征在于,对所述标注规则库进行校正包括:
对所述标注规则库进行调整,重复采用权利要求6所述的医学文献分类方法对所述待分类文献进行分类,直至所预测的预测概率不小于第一设定阈值或不大于第二设定阈值,并更新所述标注规则库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710358918.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文字中获取表达式的方法和装置
- 下一篇:一种文本分类方法、装置、介质及设备