[发明专利]一种基于最大熵的事件抽取方法在审

申请号：	201410838622.1	申请日：	2014-12-29
公开（公告）号：	CN104598535A	公开（公告）日：	2015-05-06
发明（设计）人：	崔现鹏;黎建辉;杨风雷;王鹏尧;汪海燕;周昊	申请（专利权）人：	中国科学院计算机网络信息中心
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京君尚知识产权代理事务所(普通合伙) 11200	代理人：	司立彬
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于最大事件抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于信息技术领域，涉及一种事件抽取的方法，主要应用于自然语言处理、数据挖掘、信息检索、食品安全等领域。

背景技术

随着互联网的迅速普及和发展，大量数据信息在网络中产生和传播，信息总量以指数级的增速迅猛增长。数据量大，结构不统一，冗余度较高是这些信息的特点，传统的信息获取方式已经难以满足要求，如何从浩瀚的数据海洋中快速的选取出自己感兴趣的信息成为迫切的问题。信息抽取的研究就是在这种背景下产生的。

信息抽取的目的是指通过自然语言处理的方法从文档中识别抽取出人们感兴趣的信息，将无结构的文本转化为结构化或者半结构化的信息，供用户查询和进一步的分析处理。事件抽取是信息抽取的一个重要的研究方向，是将文本中人们感兴趣的事件以结构化的形式展现出来。

事件是指在某个特定的时间片段和地域范围内发生的，由一个或者多个角色参与的，由一个或者多个动作组成的一件事情。目前对于事件抽取的研究主要有两种方法：模式匹配和机器学习的方法。模式匹配的方法接近人的思维方式，更关注于事件模式的定义，通过定义抽取模板进行事件抽取，准确率较高，知识表示直观、自然。但是这种方式依赖于具体的领域和格式，可移植行差，手工编写规则专业性较强，编制过程比较耗时并且难以覆盖所有的情况。基于机器学习的方法灵活性好，不需要太多的人工干预和领域知识，召回率较高，但是机器学习的方法比较依赖语料，如果语料不合适可能会对抽取结果有影响。

当前机器学习的方法主要基于统计模型，目前常用的统计模型有隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,ME)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random Field,CRF)等。但是此种方法存在着因为语料本身问题造成的数据稀疏的问题，同时特征选取以及中文本身的复杂性影响着最终的抽取结果，实际中经常出现把非事件信息错当成事件信息抽取出来，已抽取的事件元素不完整的情形。

发明内容

本发明的目的在于提出一种基于最大熵的事件抽取方法，适用于食品安全事件抽取的方法，同时该方法可以应用于其它领域方面的事件抽取工作。

本发明首先进行事件类别判断，通过触发词对事件做初步判断，触发词直接引发事件的产生，是决定事件类别的重要特征，将匹配到触发词的句子称作候选事件。通过最大熵模型对候选事件进行多分类判断，预测概率满足阈值的成为真正的事件。之后对事件进行元素识别，通过命名实体识别、句法分析以及最大熵模型抽取出句子中的各个事件元素，最终完成事件的抽取工作。其特征是所述方法包括：

步骤1：语料预处理。以食品安全领域为例，搜集食品安全相关的文本语料，对收集的设定领域的训练语料进行标注。

步骤2：构建触发词词典。词典中每一行的内容包括触发词以及触发词对应的事件类别。

步骤3：构建事件元素角色词典。该词典中的每一行内容包括事件中的词语以及词语对应的事件角色。比如：

2014.12.25：事件时间；

国家质检总局：事件发起者；

词典名称叫做：事件元素角色词典即可。

步骤4：对于标注的训练语料，采用机器学习的方法训练模型，获取判断事件类别的最大熵模型MT。

步骤5：对于已标注的训练语料中的事件句中的每一个词语，提取词语和句子特征，训练最大熵模型MR用于从事件句子中抽取事件元素。

步骤6：对于需要抽取事件的未标注语料，通过匹配触发词来判断是否是候选事件。

步骤7：对于候选事件，通过应用最大熵模型MT进一步判断，获取真正的事件句子，即属于设定事件类别的事件句子。

步骤8：对于真正的事件句，应用最大熵模型MR抽取事件的各个元素词语，完成事件抽取任务。

所述步骤2具体包括：