[发明专利]一种基于框架重要度计算句子相似度的方法在审
申请号: | 202110776700.X | 申请日: | 2021-07-09 |
公开(公告)号: | CN113536761A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 王铁鑫;史荟;刘文静;严欣华 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/211;G06F40/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆烨 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 框架 重要 计算 句子 相似 方法 | ||
本发明公开了一种基于框架重要度计算句子相似度的方法,具体为:步骤1:将英文句子S中所有的框构成框架语义信息集合E;步骤2:提取集合E中每个框架的核心框架元素;步骤3:根据集合E中每个框架中核心框架元素的个数计算该框架的重要度;步骤4:将英文句子S’中所有的框架构成框架语义信息集合E’,并计算集合E’中每个框架的重要度;步骤5:将集合E和集合E’中相同的框架作为一组框架组;在每个框架组中选择最小的框架重要度作为该框架组的框架的重要度;将所有框架组的框架重要度进行累加计算,并基于累加计算的值计算英文句子S和S’的相似度。本发明提出的方法可适用于文本蕴含识别、文本摘要等自然语言处理任务中。
技术领域
本发明属于自然语言处理技术领域。
背景技术
框架语义库FrameNet是一种基于框架语义学(Frame Semantics)的语义知识库,用于语言学、计算语言学和自然语言处理等语言方面的研究。通过框架语义可以挖掘到词语背后隐藏的概念结构和语义场景。
FrameNet中的框架(frame)是指由词元(lexical units,LUs)和它所联系的框架元素(frame elements,FEs)构成的表达特定场景的句子语义结构形式。框架中涉及的各种参与者、外部条件等被称为框架元素。框架元素按照重要程度分为核心框架元素(CoreFEs)与非框架元素(Peripheral、Extra-thematic),核心框架元素是一个框架在概念理解上的必要成分,它们在不同的框架中数量和类型不同,显示框架的个性;非核心框架元素则表达时间、地点等通用语义成分。
当句子包含多个框架时不同框架的重要性并不一定相同,要准确度量句子间的相似度,则必须在考虑框架本身的同时考虑其重要性,然而度量句子中框架的重要度并非易事,因为依据不同的重要度度量标准,度量的结果并非一成不变。因此框架重要度度量标准选择是框架重要度度量的关键。目前基于词层面特征的相似度计算方法未考虑句子的结构信息;基于句子结构特征的相似度计算方法未能全面考虑句子语义。以往的句子相似度计算方法主要针对句子关键词和结构的问题,由于考虑句子的语义不全面,缺乏解释性,使得相似性计算结果不够准确。
发明内容
发明目的:为了解决上述现有技术存在的问题本发明提供了一种基于框架重要度计算句子相似度的方法。
技术方案:本发明提供了一种基于框架重要度计算句子相似度的方法,具体包括如下步骤:
步骤1:提取英文句子S中所有的框架,并将该所有的框架构成框架语义信息集合E;
步骤2:构建框架语义库FrameNet可视化工具GIFN,通过GIFN提取框架语义信息集合E中每个框架的核心框架元素;
步骤3:基于每个框架中核心框架元素的个数计算每个框架的框架影响因子;根据框架影响因子建立框架重要度函数,得到框架语义信息集合E中第i个框架的重要度w(fE,i),fE,i表示框架语义信息集合E中第i个框架,i=1,2,...,frame_S,frame_S为框架语义信息集合E中框架的总个数;
步骤4:根据步骤1~3将英文句子S’中所有的框架构成框架语义信息集合E’,并计算框架语义信息集合E’中每个框架的重要度;
步骤5:将E和E’中相同的框架作为一组框架组,得到frame_same个框架组;比较第j个框架组中两个框架的重要度,选择最小的框架重要度作为第j个框架组的框架重要度minj,J=1,2,...,frame_same;将frame_same个框架组的框架重要度进行累加计算,并基于累加计算的值计算英文句子S和S’的相似度。
进一步的,所述步骤1中将英文句子S输入至开源语义框架抽取工具SEMAFOR中,所述SEMAFOR根据框架语义库FrameNet的结构解析输入的英文句子S,从而提取英文句子S中的框架。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110776700.X/2.html,转载请声明来源钻瓜专利网。