[发明专利]用语义迭代提取网络突发事件并识别外延事件关系的方法在审
申请号: | 201710679941.6 | 申请日: | 2017-08-10 |
公开(公告)号: | CN107480137A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 林飞;洪秋月;赵喜荣;熊骁;毛俊 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100082 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用语 义迭代 提取 网络 突发事件 识别 外延 事件 关系 方法 | ||
技术领域
本发明涉及信息技术领域,尤其是知识图谱的技术领域。
背景技术
随着计算机技术的飞速发展,我们已经步入到互联网信息爆炸的时代,根据中国互联网络信息中心(CNNIC)在国家网信办新闻发布厅发布的第38次《中国互联网络发展状况统计报告》,截至2016年6月,中国网民人数规模达7.10亿,上半年新增网民2132万人,增长率为3.1%,互联网普及率达到51.7%,人们的生活方式也逐渐被其改变和影响,越来越多的人愿意在互联网上分享经验、知识,互联网上堆积了大量的文本信息,其中不乏社会热点、舆论热点的信息。而这些信息往往是以无边界半结构化的形式存在,想从海量的数据中发现直观的感兴趣的知识无疑难度很大,本技术意在解决此类难题,将事件和事件关系抽取出来,组成直观、有效的知识。有利于提高用户获取信息的效率,更有利于提高对突发事件的组织、发现、挖掘和处理的能力。
首先,对于“事件”的界定。“事件”一次来源于认知心理学,认为人是以“事件”为单位记忆和理解现实世界,而细分到不同领域下,“事件”的界定都会有所不同,到目前为止对于“事件”没有统一的界定。如在信息检索领域,“事件”被认为是细化了的用于检索的主题;在信息抽取即Information Extraction中“事件”指的是发生在某个特定的时间片段和环境范围之内,由若干角色参与的,由若干动作组成的场景,一般表现为句子级。ACE即Automatic Context Extraction评测会议中,事件抽取是其子任务之一,事件抽取要求从含有事件信息的非结构化源文本中,自动识别和抽取出含有事件类型、时间元素和事件角色信息的结构化信息。
事件抽取属于信息抽取的重要组成部分,其中涉及的理论知识包括自然语言处理、数据挖掘、数据库等多学科的技术,目前主流的有两种:一是模式匹配法;二是机器学习方法。模式匹配法相对来说准确率较高,并且其知识表示方式自然、直观、易于理解且便于推理,缺点对领域知识的依赖性大,且受语言、甚至文本格式的限制,其可移植性差,往往需要投入大量人力,并且有领域专家和语言学专家的协助。在模式匹配法的研究过程中,已经有了许多成果,许多学者先后设计了各种获取信息抽取模式获取系统,如AutoSlog(相关参考文献:Ellen Riloff.Automatically Constructing a Dictionary for Information Extraction Tasks.In Proceed of 11th National Conf.on Artifical Intelligence)、PALKA(相关参考文献:Jun-Tea Kim,and Dan I.Moldovan. Acquisition of Linguistic Patterns for Knowledge-based Information Extraction.IEEE Transactions on Knowledge and Data Engineering)、AutoSlog-TS(相关参考文献:Ellen Riloff,and Jay Shoen. Automatically Acquiring Conceotual Answer Patterns without an Annotated Corpus.In Proceeding of the Third Workshop on Very Large Corpora.)、ExDiso(相关参考文献:YANGARBER R.Scenario customization for information extraction.NewYork:New York University)、GenPAM(相关参考文献:姜吉发. 自由文本的信息抽取模式获取的研究.北京:中国科学院)。
基于模式匹配法的事件提取方式经历从人工手动整理到后来的基于句型模板构造提取规则(相关参考文献:吴平博,陈群秀,马亮.基于时间矿建的事件相关文档的智能检所研究),在手工整理时期,要求用户有较高的技能水平,而且这种方式需要消耗大量的人力。后来的句型模板的方法利用的是手工确定的句模提取规则,用于对处理之后的文本进行匹配和抽取。我国中科院的姜吉发提出了一种基于领域无关概念知识库的事件抽取模式学习方法GenPAM。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710679941.6/2.html,转载请声明来源钻瓜专利网。