[发明专利]一种大数据集中生物事件触发词的识别方法有效
申请号: | 201710148320.5 | 申请日: | 2017-03-14 |
公开(公告)号: | CN106933805B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 陈一飞;刘峰;韩冰青 | 申请(专利权)人: | 陈一飞;刘峰 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 林辉轮 |
地址: | 210000 江苏省南京市雨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 集中 生物 事件 触发 识别 方法 | ||
本发明涉及生物事件触发词的识别方法技术领域,具体涉及一种大数据集中生物事件触发词的识别方法,为并行欠采样方法(PUS),包括数据分割、边界因子计算、样本欠抽样、边界集归并和最后修剪步骤,可以用于处理类别之间存在显著的分布偏差的大训练数据集,通过并行减少属于多数类别的样本实例来达到目的。该方法对数据的选择是基于边界因子的计算,其衡量每个样本实例的所携带的信息对于分类的重要性。上述技术方案提供的大数据集中生物事件触发词的识别方法,能同时解决数据量大及类别间样本分布不平衡问题,以达到更好的生物事件触发词的识别效果。
技术领域
本发明涉及生物事件触发词的识别方法技术领域,具体涉及一种大数据集中生物事件触发词的识别方法。
背景技术
随着信息技术的提高以及互联网的日益普及,生物医学电子文献作为科学研究的产物,呈指数增长的趋势,这些在线文献资源蕴藏大量的系统生物学研究急需的宝贵生物医学知识。面对海量生物医学文本信息的不断激增,文本挖掘技术正作为提取隐藏在文献中重要知识的技术,在生物医学领域得以广泛的应用。
生物事件抽取是指在海量医学研究文献中自动检测基因和蛋白质等生物分子之间交互关系描述的过程,从而抽取预先定义的事件类型的结构化信息。在这个过程中,如果能够准确地识别出生物事件触发词,事件抽取的性能将大大提高。事件触发词识别是生物事件抽取过程中的首要步骤,它所识别的触发词是事件元素识别的基础,是整个事件的核心。在触发词识别中,还需识别触发词的类别,触发词的类别也就是整个事件的类别,如果触发词识别有误,后续工作也失去了意义,因此做好触发词识别是进行生物医学事件抽取的关键。其中,基于支持向量机(SVM)与基于丰富特征表示的方法是事件触发词识别中最常用的、结果最好的ML模型。然而,在实际的事件触发识别应用中,关于数据的复杂性有两个关键问题。首先,数据在类别间分布的不平衡性。其次,训练数据集的大数据性。对于大数据集,许多分类算法存在很大的限制并导致性能降低。例如,SVM的训练复杂度高度依赖于数据集的大小,在大数据集上训练耗时较多。因此,大数据集及数据分布高度不平衡的特点为事件触发词的识别带来了了非常巨大的挑战。
面对大数据集,欠采样技术是最有效的方法,它通过去除一些多数类别中的样本实例来来构建平衡数据集,这样做可以降低计算复杂性。因此,欠采样技术在大数据下仍是有效的。为此,许多更高效的欠采样方法被提出来。其中,基于聚类的欠采样方法,旨在通过计算数据集的聚类解决不平衡数据分布问题。在这类方法中,训练数据被分成几簇,然后根据比例从多数类别的簇群中选择具有代表性的样本实例,与少数类别实例组成平衡的数据集。通过使用基于聚类的欠采样方法和集成学习能有效地解决不平衡数据问题。另外,一种新的反向随机欠抽样方法(IRUS),通过对多数类别数据集的随机大量抽样,在类别之间构建复合决策边界。然而,这些方法虽然能在一定程度上缓解不平衡数据学习的问题,但仍然需要耗费大量的时间来迭代地聚类或寻找最近的邻居的边界。因此,面对大数据集,这些方法并非真正高效的。
对于大数据集,为了克服SVM训练复杂性的瓶颈,各种方法也被提出来,例如,顺序最小优化(SMO)将大QP问题分解为一系列的最小可能QP问题,允许SMO处理大训练集。另有使用最小封闭球(MEB)聚类的数据集通过MEB方法划分训练数据,聚类的中心用于SVM分类。然而,这些方法对不平衡数据的分类没有帮助。
现有的方法都未能很好的同时解决在分类问题中同时存在的数据量大及类别间样品分布不平衡问题,这是解决生物事件触发词识别的重要环节。
发明内容
本发明要解决的技术问题是提供一种大数据集中生物事件触发词的识别方法,能同时解决数据量大及类别间样本分布不平衡问题,它能解决在大数据集下的样本不平衡分类问题,能够达到更好的生物事件触发词的识别效果。
为解决上述技术问题,本发明采用了以下技术方案:一种大数据集中生物事件触发词的识别方法,为并行欠采样方法(Parallel Under-Sampling,PUS),包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈一飞;刘峰,未经陈一飞;刘峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710148320.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的结构化信息抽取方法
- 下一篇:医疗同义词的确定方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置