[发明专利]互联网政治外交类新闻事件抽取方法有效
申请号: | 201910937986.8 | 申请日: | 2019-09-28 |
公开(公告)号: | CN110941692B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 崔莹;代翔;孙涛;潘磊;丁洪丽 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/211;G06F40/289 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 政治 外交 新闻 事件 抽取 方法 | ||
本发明公开的一种互联网政治外交类新闻事件抽取方法,旨在提供一种能够提高事件识别准确率的抽取方法,本发明通过下述技术方案予以实现:采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素。完成单文本预处理操作,并基于义原相似性计算并扩展类别事件触发词;将满足相似度的阈值的句子作为候选事件句。筛选满足事件类别模板的事件元素,提取事件句中的实体要素;再按照事件模板将事件元素填充到对应的论元角色中;筛选满足类别模板的候选事件元素;按事件模板生成事件的结构化描述文件,构建出政外领域事件库。
技术领域
本发明涉及文本信息提取技术领域,尤其涉及一种互联网政治外交类新闻事件抽取方法。
背景技术
随着科技水平日新月异的更新发展,各类新闻数据来源手段层出不穷,导致多源、多品类、异构新闻数据量突飞猛涨。新闻数据作为开源情报重要数据来源具有实时性高、海量等特点。如何从大量非结构化新闻数据中找到想要的关注目标信息,如何在大量非结构化新闻数据中对关注目标进行深层次挖掘、分析、预测等,是各国面对海量新闻数据时进行数据态势感知、风险预警等重点关注和亟待解决的问题。
非结构化文本类新闻数据进行结构化转换是新闻数据分析的基础,目前,针对非结构化文本类新闻数据进行结构化信息提取主要通过:命名实体提取、实体关系提取,事件提取等,其中,命名实体提取、实体关系提取的内容多为初级信息;事件抽取是指从文档中识别出某个事件发生的时间、地点、事件的参与者等信息,并以结构化的形式呈现出来,形成模板形式的事件场景描述。事件抽取主要把人们感兴趣的,用自然语言表达的事件以结构化的形式呈现出来。真正要做到信息关联、事件关联分析、预测挖掘等,需要进行更高一层次的信息提取,如事件抽取、主题抽取。
事件抽取是信息抽取领域一个重要的研究方向。目前事件抽取的研究主要有两类方法:基于模式匹配的方法和机器学习的方法。基于模式匹配的事件抽取是指通过定义好的模式来识别某一类事件和抽取事件相关的元素信息。模式匹配的方法准确率较高(如果模式提取的非常准确),且接近人的思维方式,知识表示直观、自然,便于推理。但是这种方法往往依赖于具体语言、具体领域及文本格式,可移植性差,需要富有经验的语言学家才能完成。和基于模式匹配的方法相比,基于机器学习方法的健壮性和灵活性较好,比较客观,不需要太多的人工干预和领域知识,召回率较高,但由于语料库规模的影响,数据稀疏问题比较严重,准确率较模式匹配的方法低,有时搜索空间很大还会导致巨大的空间开销,效率不高。针对大量混杂数据中的事件信息,越来越多的学者希望实现特殊事件的自动化发现,获得大量精度高、机器可阅读的事件数据,构建出各类结构化事件库。
正是由于机器学习在政外领域进行抽取时需要大规模的标注语料,同时存在识别率低的问题,本发明拟采用基于模式匹配的方法对政外领域新闻数据进行事件抽取。
类似于对知识进行总结然后形成知识库一样,对整个系统起支撑作用。一般来说,基于模式匹配方法的事件抽取是一种规则,模式定义了事件信息抽取的规范。模式的获取可以通过手工或者自动的方式来设定。通过定义模式,形成最终的模式库。基于模式匹配的事件信息抽取系统核心模块是模式获取和事件信息抽取。在基于模式匹配方法事件抽取过程中,有两个核心关键环节,一是事件触发词表的构建,触发词表构建的完整性和准确性,对事件的识别起到决定性的作用,因此如何完整的构建触发词词表至关重要。二是事件论元角色内容的填充,一句话中针对同一事件要素类型可能会提取到多个事件要素,如何选取合适的要素进行事件论元内容的填充同样对事件提取最终结果的准确性会产生深远的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910937986.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无飞边一次锻造成型的结构
- 下一篇:一种坐姿检测方法及装置