[发明专利]互联网政治外交类新闻事件抽取方法有效
申请号: | 201910937986.8 | 申请日: | 2019-09-28 |
公开(公告)号: | CN110941692B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 崔莹;代翔;孙涛;潘磊;丁洪丽 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/211;G06F40/289 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 政治 外交 新闻 事件 抽取 方法 | ||
1.一种互联网政治外交类新闻事件抽取方法,其特征在于,包括如下步骤:
针对互联网政治外交类新闻事件,采用人工构建初始触发词集合,根据触发词集合定义事件类别,针对每类事件构建触发词表和包含触发词、事件论元角色的事件类别模板;结合文本依存句法,分析、识别和抽取政外领域事件元素;文本预处理:按逗号、句号切分句子,对单篇文档进行分词、词性标注,完成单文本预处理操作;文本预处理和事件触发词表扩展:根据触发词表,判断句中是否包含触发词或与触发词相似的词,计算句子中相似词、动词和触发词的相似度,并基于义原相似性计算并扩展类别事件触发词;事件句识别:筛选触发词相似度,设定满足相似度的阈值,将满足相似度的阈值的句子作为候选事件句,同时为事件句指定事件类别;根据事件类别模板内的论元角色约束筛选满足事件类别模板的事件元素,即事件元素的识别,提取事件句中的实体要素,再按照事件模板将事件元素填充到对应的论元角色中;根据触发词,依存句法、上下文信息,筛选得到满足类别模板的候选事件元素;完成事件元素识别后,针对非结构化文本类新闻数据进行结构化,按事件模板生成事件的结构化描述文件,构建出政外领域事件库;在句法分析树中找到触发词在句中的位置,判断句中触发词个数是否大于1,若触发词个数大于1,则通过触发词表找到并列关系的词,分别找到与每个触发词满足动宾关系的宾语词;若触发词个数小于1,则判断是否存在与触发词满足主谓关系的主语词,满足主谓关系,则将该词保存为事件模板中的施事者,如果不满足,则在句中分词结果中选择词性为nr的词作为事件模板中的施事者;然后进行宾语识别,判断是否是特殊事件触发词,特殊触发词则按特殊事件给出宾语;若不是特殊触发词,则找到句法分析树中与触发词满足动宾关系的宾语词;在句法分析树中对该宾语循环向父节点方向进行判断,判断宾语是否有定中关系的定语词,通过触发词找到并列关系的词,并分别找到与每个触发词满足动宾关系的宾语词,如果不存在,则将该宾语保存为事件模板中的受事者;如果存在,则将定语与该定语拼接,如果此定中关系的父节点仍然是定中关系,则继续对该宾语进行拼接,按元事件模板填充论元角色内容。
2.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:当一句话中包含多个触发词时,则该多个触发词句属于多事件句,对该事件句赋予多个事件类别。
3.如权利要求2所述的互联网政治外交类新闻事件抽取方法,其特征在于:筛选触发词相似度满足设定阈值的句子作为事件句,同时为事件句指定事件类别。
4.如权利要求3所述的互联网政治外交类新闻事件抽取方法,其特征在于:事件句识别通过对句子进行分词处理,将所有词性为动词的词与触发词表进行比对,当句子中包含有触发词表中的某触发词时,将该句子 判定为事件句,同时根据触发词指定该事件句的事件类别。
5.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:在事件元素识别中,提取事件句中的实体要素,根据事件类别模板内的论元角色约束,对事件句中的事件元素进行识别,再按照事件模板将事件元素填充到对应的论元角色中。
6.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:根据新闻标题或正文内容利用句子的依存句法关系绘制事件依存句法分析图,将是否包含触发词作为判断是否是候选事件的标准,判断句子中是否有触发词,有则归类到相关候选类别中。
7.如权利要求1所述的互联网政治外交类新闻事件抽取方法,其特征在于:利用知网词语相似度计算标题文本中的词语与类别触发词的相似度,其中,实词的每一个概念是由一组义原描述式来定义的,这些义原描述式分为第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式,四部分,第一独立义原之间的相似度通过义原在知网中义原,根据上下位关系所形成的树中的距离来计算,公式为
其中,p1表示知网中义原,p2表示其它独立义原,d是p1、p2在义原层次体系中的路径长度,是一个正整数,α是一个可调节的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910937986.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无飞边一次锻造成型的结构
- 下一篇:一种坐姿检测方法及装置