[发明专利]一种基于自然语言处理的结构化管制指令提取方法有效
申请号: | 201811094551.3 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109460547B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 王煊;盛寅;丁辉;陈平;严勇杰;王冠;徐秋程;才智 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/211;G06F40/253;G06F40/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 结构 管制 指令 提取 方法 | ||
1.一种基于自然语言处理的结构化管制指令提取方法,其特征在于,包括如下步骤:
步骤1,提取经过语音识别后的管制指令,即文本格式的管制指令,对文本格式的管制指令进行中文分词操作,得到词序列,对词序列中的每个词按对应的词性进行自动标注;
步骤2,根据自动标注的结果获取管制指令中的特殊词和特殊词组;
步骤3,以特殊词组、特殊词为基本单位构建新的词序列;
步骤4,进行句法分析,形成以动词为支配词的依存句法树;
步骤5,对特殊词组的用途分类,保留与动词存在依存关系的特殊词组;
步骤6,判断特殊词组中动词数量,针对动词数量只有1个和大于1个的两种情况,分别进行处理;
步骤7,构建语义网;
步骤8,确定谓词和论元关系:谓词和论元之间的关系是由论元所在格的种类确定的,通过语义网找出谓词、论元和关系组成的三元组结构;
步骤9,判断空范畴:在谓词和论元关系确定后,还需要判断是否会存在未被填入论元的范畴,即空范畴,若空范畴的存在影响了完整语义的理解,则需要对其进行填充,跳转步骤10;若不存在空范畴,则直接跳转步骤11;
步骤10,提取出谓词的空范畴,使用贝叶斯算法进行论元推理并填补空范畴;
步骤11,构建计算机可读的结构化模板;
步骤2包括:根据自动标注的结果判断管制指令中是否存在特殊词,若存在特殊词则搜寻其前后出现的词是否具有数字或英文字母的词性,若具有则与特殊词形成特殊词组,词性标记为名词;若词语不是特殊词,则保持其词形和词性不变;
步骤5包括:在管制指令中包含两种成分的特殊词,一种直接参与描述航空器的动作,另一种只用来描述外部信息,区分这两类特殊词,根据依存句法树找出与动词存在直接依存关系的特殊词,如果特殊词组与动词不存在依存关系,则将其提取出来,以列表形式进行汇聚,用以描述外部信息;如果特殊词组与动词存在依存关系,则保留;
步骤6中,如果动词数量只有1个,执行如下步骤:
步骤A-1,由于动词数量只有一个,因此该动词必然是谓词,提取该谓词;
步骤A-2,提取谓词论元:将依存句法树中与谓词直接相连的词语提取出来,这些词语将组成谓词的论元;
步骤6中,如果动词数量大于1个,执行如下步骤:
步骤B-1,管制指令中的动词类别分为两类:表动作动词和表状态动词,表动作动词描述了飞行器的运动动作,表状态动词描述飞行器的状态,提取表状态动词:表状态的动词表现了两个状态:实施动作和不实施动作;
步骤B-2,表动作提取动词:表动作的动词能够作为句子的谓词;
步骤B-3,判断谓词数量:若谓词数量只有1个,则跳转步骤A-2,若谓词数量大于1个,则跳转步骤B-4;
步骤B-4,判断谓词间关系:根据管制指令中先出现的动作先发生,后出现的动作后发生的原则判断谓词间关系;
步骤B-5,提取谓词论元:将在依存语法中与谓词有直接关系的词语提取出来,这些词语将组成谓词的论元;
步骤7包括:对管制指令中出现的动词进行分析,提取出表达航空器动作的动词,结合实际的应用领域定义动词的价位、语义格、和论元词语,以实体、属性、实体的三元组方式编写进语义网之中,三元组各部分内容是动词、语义格、论元;
步骤10中,使用贝叶斯网络模型的方法进行空范畴填补,遵循如下贝叶斯公式:
P(B)=P(B|A)·P(A),
其中P(A)是先验概率,表示在句子中出现的信息的概率,P(B|A)是条件概率,表示由句子中出现的信息所推导出语义网中的空范畴填补信息的概率,P(B)是后验概率,表示得出的填补空范畴的论元信息的概率;若需要对空范畴进行填补,根据句子中出现的信息确定先验概率,将该信息的先验概率定义为1,根据空范畴所属谓语动词和格的种类在语义网中找出所有的属于该种类的格的论元,将这些论元定义为候选论元,同时从提前给出的其他不同信息与候选论元间的条件概率表中提取条件概率,使用贝叶斯公式计算得到每个候选论元出现的后验概率,通过比较后选择最大后验概率的论元进行空范畴的填补;
步骤11包括:构建的结构化模板是以谓词为中心,谓词和论元关系所构成的三元组,作为计算机可读的模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811094551.3/1.html,转载请声明来源钻瓜专利网。