[发明专利]事件信息融合方法和系统有效
申请号: | 201110269307.8 | 申请日: | 2011-09-13 |
公开(公告)号: | CN102298635A | 公开(公告)日: | 2011-12-28 |
发明(设计)人: | 李培峰;朱巧明;周国栋;王红玲;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 信息 融合 方法 系统 | ||
1.一种事件信息融合方法,其特征在于,包括以下步骤:
设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合;
比较所述初选事件集合中的事件与预先设置的事件抽取模式的相似度,选取所述相似度大于一预设阈值的事件形成候选事件集合,甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;
判断所述事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对所述存在结构缺失的子句进行结构补全,生成事件补全标注正文;
抽取所述事件补全标注正文的事件实例和事件论元,得到第一事件集合;
对所述第一事件集合的事件实例进行聚类,生成包含了同指事件链的第二事件集合,根据相关事件推理规则补全第二事件集合中每个事件的缺失论元,生成第三事件集合;
根据所述同指事件链对所述第三事件集合的事件论元进行归一化,生成完备事件。
2.根据权利要求1所述的事件信息融合方法,其特征在于,设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合前进一步包括:
定义事件及其相关事件各属性的值,并进行标注,生成第一标注样本种子库;
对所述第一标注样本种子库中的句子进行句法和依存关系标注,生成第二标注样本种子库;
从所述第二标注样本种子库中抽取事件实例对应的锚和论元,生成包括锚和论元及其属性的二元组,得到用所述二元组表示的事件抽取模式。
3.根据权利要求2所述的事件信息融合方法,其特征在于:所述检索条件是所述第二标注样本种子库中的锚和论元的组合。
4.根据权利要求1所述的事件信息融合方法,其特征在于:甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型具体为:
对所述候选事件集合中的事件实例和论元进行识别和标注,生成训练样本;
对所述训练样本进行同指事件链标注、缺失论元填充路径标注和同指事件链的完备事件标注;
抽取所述训练样本缺失论元填充路径的特征,用“0”表示所述特征不存在,用“1”表示所述特征存在,通过最大熵分类器对所述特征学习生成零指代消解模型;
抽取所述训练样本事件的特征,用“0”表示所述特征不存在,用“1”表示所述特征存在,通过最大熵分类器对所述特征学习生成事件识别和抽取模型;
抽取所述训练样本的论元特征,用“0”表示所述特征不存在,用“1”表示所述特征存在,通过最大熵分类器对所述特征学习生成事件论元识别和抽取模型;
抽取所述训练样本的论元标注信息,将其输入决策树学习器生成相关事件推理规则。
5.根据权利要求1所述的事件信息融合方法,其特征在于,判断所述事件标注正文中每一子句是否存在结构缺失,若存在结构缺失,则对所述存在结构缺失的子句进行结构补全,生成事件补全标注正文具体过程为:
根据所述事件标注正文中每个句子的句法树,找到最内层子句标记,把所述最内层子句标记包含的所有结点抽取出来得到最内层子句;
以所述每一最内层子句为起点往上找一条到达该句法树根结点的路径,裁剪掉不包含在所述路径中的结点,将所述路径和所述最内层子句合并构成新的句法树,包含在所述新句法树中的结点构成了一个新的用于标注缺失成分的子句;
判断所述新的用于标注缺失成分的子句中是否存在缺失成分,如果存在,进行缺失成分标注,形成事件缺失成分标注正文;
调用指代消解工具对所述事件缺失成分标注正文中的实体进行指代消解,并将指向同一概念的实体构造指代链,每条指代链有一个头标识,将所述指代链添加到所述事件缺失成分标注正文;
将所述标注的缺失成分与其前面的所有类型相同的实体两两构成候选对,为每一所述候选对根据所述零指代消解模型从事件缺失成分标注正文中取得其所有特征,将所述特征用向量表示,输入所述零指代消解模型;
用设置了参数的最大熵分类器在所述训练样本上计算每个候选对和训练样本的相似度,选择相似度取值最高的候选对作为分类器的输出结果;
将所述选择的候选对中的实体填充到缺失成分处,生成补全了缺失成分的事件补全标注正文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110269307.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:提供电力系统信息的方法与装置
- 下一篇:一种放大显示方法和系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置