[发明专利]事件信息融合方法和系统有效
申请号: | 201110269307.8 | 申请日: | 2011-09-13 |
公开(公告)号: | CN102298635A | 公开(公告)日: | 2011-12-28 |
发明(设计)人: | 李培峰;朱巧明;周国栋;王红玲;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 事件 信息 融合 方法 系统 | ||
技术领域
本发明涉及信息处理领域,尤其涉及一种事件信息融合方法和系统。
背景技术
由于本发明涉及了事件信息处理系统中的多个和事件相关的概念,为了更好的理解本发明,先对相关概念作出说明:
事件(Event):在真实世界中已经/可能/将要发生的事情,一般包括时间、地点和人物等角色,如出生、死亡、地震和车祸等事件,由于表达方式的不同,每个特定的事件可能有不止一个的事件实例。
实体(Entity):一个语义类别中的对象或对象的集合,如人名、交通工具和地名等。
事件实例(Event Mention,EM):描述一个事件的句子或子句,如“张三1973年出生于江苏苏州。”就是一个类别为出生事件的事件实例。
锚(Anchor):事件的触发词(一般为动词和名词居多)称为锚,用于识别事件。如“生于”、“出生”等就是出生事件的锚。
事件角色(Event Role):事件包含的元素就是事件角色,如出生事件包含“人名”、“出生时间”、“出生地点”等角色。
事件论元(EventArgument):事件角色的实例(或取值)就是事件论元。如“1997年”、“1997年5月3日”等就是特定的出生事件中的角色“出生时间”的论元。
同指事件实例(Coreference Event Mentions):描述同一事件的事件实例。如图1中EM1和EM2就是同指事件实例,简称同指事件,都是描述了永州法院枪击案中的死亡事件。
相关事件(Related Events):两个或多个事件存在内在联系,这些事件称为相关事件,如图1中EM3(攻击事件)、EM4(死亡事件)和EM5(受伤事件)就是相关事件,它们描述了一个主题事件“永州法院枪击事件”的三个侧面。
完备事件(Complete Event):各个事件角色的论元尽可能不缺失且内容尽可能完整的事件称为完备事件。如图1中死亡事件EM1、EM2和EM4描述了同一个事件,它们是同指事件,假设一个死亡事件有4个角色:死亡时间、死亡地点、死亡人员和凶手。那么,这3个事件实例都缺少部分论元或论元的内容不完备,如EM1缺少死亡时间、死亡地点和凶手,另外死亡人员信息也不完备,根据同指事件EM1、EM2和EM4,以及它们的相关事件EM3,可以得到一个完备事件。
事件融合(Events Fusion):针对每个特定的事件,根据该事件的同指事件和相关事件的描述,融合生成一个描述尽可能完备、论元内容完整全面的完备事件的过程,也就是根据同指事件和相关事件生成完备事件的过程,如由图1中EM1、EM2、EM4和EM3得到EM6的过程就是事件融合的过程。
指代消解(Coreference Resolution):如果两个词或短语指示现实世界中同一实体,那么它们存在指代关系,指代消解就是在文档中找出指示同一个实体的所有词或短语,把它们链接成为一个指代链。如上面两个句子中就存在一条指代链“词或短语←→它们←→词或短语”。
基于互联网的信息抽取技术一般分为两种形式:半结构化文本信息抽取和无结构化文本信息抽取,前者主要根据网页中的HTML标注生成包装器(Wrapper)并利用包装器来从文本中抽取信息,它主要用于抽取那些信息表示具有一定结构的网页中的数据,如商品比价系统就是它的一个应用实例。目前,绝大多数的Web信息抽取系统和方法就属于这一类;而后者针对的是自然文本,如网页的正文、邮件的正文等,自然文本由大段的文字组成,而这些文字之间并无结构或标注,所以在实现上比前一种方法更加困难,事件信息处理就属于这一类。
目前,事件信息抽取研究主要集中在简单语句或者句群中的事件抽取,没有对事件抽取后的事件融合技术,使得事件信息不完整和不准确,存在事件属性缺失的问题。
发明内容
本发明实施例提供了一种事件信息融合方法和系统,用于对事件信息进行抽取、事件属性补全、事件聚类和融合,形成事件信息完整度高的完备事件。
本发明实施例提供了一种事件信息融合方法,包括以下步骤:
设置检索条件,按照检索条件检索生成包括多个事件的初选事件集合;
比较所述初选事件集合中的事件与预先设置的事件抽取模式的相似度,选取所述相似度大于一预设阈值的事件形成候选事件集合,甄别和标注候选事件集合,生成训练样本,并通过训练样本生成相关事件推理规则、零指代消解模型、事件识别和抽取模型、论元识别和抽取模型;
从待抽取完备事件的网页中获取网页正文,对网页正文进行标注,生成事件标注正文;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110269307.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提供电力系统信息的方法与装置
- 下一篇:一种放大显示方法和系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置