[发明专利]一种语料修复的方法和装置有效
| 申请号: | 201910047091.7 | 申请日: | 2019-01-18 |
| 公开(公告)号: | CN109766556B | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 魏誉荧 | 申请(专利权)人: | 广东小天才科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/268;G06F40/289 |
| 代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
| 地址: | 523851 广东省东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语料 修复 方法 装置 | ||
本发明涉及语言数据处理技术领域,提供一种语料修复的方法和装置,包括:通过对语句进行句法分析,获取有效词语;通过与标准构成关系进行比对,获取语句原始构成关系中的缺失部分和乱序部分,所述标准构成关系为语法系统中的标准句子结构;结合所述有效词语,对所述缺失部分进行增补,获得增补词语,调整所述乱序部分,获得正确语序;结合所述有效词语、所述增补词语和所述正确语序,生成有效语料。本发明通过对原始语料中句子成分不全、顺序错乱的部分进行修复,提高计算机理解自然语言的效率。
技术领域
本发明涉及语言数据处理技术领域,尤指一种语料修复的方法和装置。
背景技术
随着可穿戴设备、智能家居、物联网等领域的逐步发展,全面打造智能化的生活成为了当下的聚焦点,而人机交互方式逐渐成为实现这种生活的关键环节。传统的交互方式通过程序员输入计算机语言,实现终端对用户意图的理解,这种方式下,普通用户无法与终端进行更深入的交互。
现有的一些人工智能软件产品,通过对用户自然语言的理解,可以实现与普通用户的简单交互,识别用户输入的自然语言来理解语义,例如微软小娜、苹果Siri、小米小爱同学等。进一步地,通过识别用户语音来理解自然语言的语义,使用户的输入过程更加便捷。
通常认为自然语言在进行逻辑理解时存在一定的缺陷,例如,其表达式的结构层次不够清晰,个体化认知模式体现不够明确,量词管辖的范围不太确切,句子成分的语序不固定,语形和语义不对应,这些缺陷导致计算机在理解自然语言时,面临很多不符合标准语法结构的语料,这些语料根据用户使用习惯各不相同,具体表现为,有的语句句子成分不全,有点语句句子成分的顺序错乱,如何将这些不符合标准语法结构的语料进行修补,获取完成的语料,成为了新的问题。
发明内容
本发明提供一种语料修复的方法和装置,通过获取用户原始语料中有效词语,根据有效词语,对原始语料中句子成分不全、顺序错乱的部分进行修复,从而提高计算机理解自然语言的效率。
本发明提供的技术方案如下:
本发明提供一种语料修复的方法,包括:
获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;
从所述原始构成关系中提取关键关系的组合,所述关键关系为句子成分间的组合关系;抽取所述关键关系的组合中的主体成分及主体词性;
根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;
通过与标准构成关系进行比对,获取所述原始构成关系中的缺失部分和乱序部分,所述标准构成关系为语法系统中的标准句子结构;
结合所述有效词语,对所述缺失部分进行增补,获得增补词语;调整所述乱序部分,获得正确语序;
结合所述有效词语、所述增补词语和所述正确语序,生成有效语料。
具体地,本发明中,原始语料是用户使用键盘或者虚拟键盘输入的语料,也可以是用户通过语音输入后经过语音识别技术获取的语料,具体的语料获取方式不影响本发明的实施。
句法分析是对用户输入的原始语料内容通过文字识别,分辨出其中的词语、词语的词性,这些词语的词性按照原始语料的顺序组合,形成原始构成关系。
分析原始构成关系,将其中的关键关系提取出来,关键关系是句子成分间的组合关系,将这些关键关系中的主体成分及主体的词性抽取出来。这样就有了用户原始语料中某一个语句的框架。把之前获取的词语根据词性,与框架中的句子成分进行匹配填充,当这个框架被完全填充时,就视为语句的有效部分已经被完全筛选出来。如此,获取语句的有效词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910047091.7/2.html,转载请声明来源钻瓜专利网。





