[发明专利]一种语料修复的方法和装置有效
| 申请号: | 201910047091.7 | 申请日: | 2019-01-18 |
| 公开(公告)号: | CN109766556B | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 魏誉荧 | 申请(专利权)人: | 广东小天才科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/268;G06F40/289 |
| 代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
| 地址: | 523851 广东省东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语料 修复 方法 装置 | ||
1.一种语料修复的方法,其特征在于,包括:
获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;原始构成关系由原始预料中的词语对应的词语词性按照顺序组合形成;
从所述原始构成关系中提取关键关系,所述关键关系为句子成分间的组合关系;关键关系从原始构成关系中提取得到;
抽取所述关键关系中的主体成分和主体词性;
根据所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;
通过与标准构成关系进行比对,获取所述原始构成关系中的缺失部分和乱序部分,所述标准构成关系为语法系统中的标准句子结构;
结合所述有效词语,对所述缺失部分进行增补,获得增补词语;调整所述乱序部分,获得正确语序;
结合所述有效词语、所述增补词语和所述正确语序,生成有效语料。
2.根据权利要求1所述的一种语料修复的方法,其特征在于,所述结合所述有效词语、所述增补词语和所述正确语序,生成有效语料前,还包括:
记录所述语句与所述有效词语的对应关系,建立修复规则库,所述修复规则库还包含所述语句和所述有效词语、所述增补词语和所述正确语序。
3.根据权利要求2所述的一种语料修复的方法,其特征在于,所述建立修复规则库包括:
统计所述语句出现的次数,当其大于预设值时,将所述语句加入到所述修复规则库内。
4.根据权利要求3所述的一种语料修复的方法,其特征在于,所述方法还包括:
再次获取所述原始语料中的语句,判断其是否为所述修复规则库内存储的语句;
如果是,直接从所述修复规则库中获取所述有效词语、所述增补词语和所述正确语序。
5.根据权利要求1所述的一种语料修复的方法,其特征在于,所述结合所述有效词语,对所述缺失部分进行增补,获得增补词语包括:
分析获得所述有效词语中与所述缺失部分相关联的关联词语;
分析所述语句的上下文之间的逻辑关系,根据所述逻辑关系和所述关联词语,获取增补词语。
6.一种语料修复的装置,其特征在于,包括:
提取模块,获取原始语料中的语句,对所述语句进行句法分析,获取其中的词语、词语词性和原始构成关系;从所述原始构成关系中提取关键关系,所述关键关系为句子成分间的组合关系;抽取所述关键关系中的主体成分和主体词性;原始构成关系由原始预料中的词语对应的词语词性按照顺序组合形成;关键关系从原始构成关系中提取得到;
匹配模块,根据所述提取模块获取的所述词语词性与所述主体词性的对应关系,将所述词语匹配到所述主体成分中,匹配成功获得有效词语;
寻错模块,通过与标准构成关系进行比对,获取所述提取模块获取的所述原始构成关系中的缺失部分和乱序部分,所述标准构成关系为语法系统中的标准句子结构;
纠错模块,结合所述匹配模块获取的所述有效词语,对所述缺失部分进行增补,获得增补词语;调整所述乱序部分,获得正确语序;
生成模块,结合匹配模块获取的所述有效词语、所述纠错模块获取的所述增补词语和所述正确语序,生成有效语料。
7.根据权利要求6所述的一种语料修复的装置,其特征在于,所述匹配模块包括:
建库子模块,记录所述语句与所述有效词语的对应关系,建立修复规则库,所述修复规则库还包含所述语句和所述有效词语、所述增补词语和所述正确语序。
8.根据权利要求7所述的一种语料修复的装置,其特征在于,所述建库子模块包括:
更新单元,统计所述语句出现的次数,大于预设值时,将所述语句加入到所述修复规则库内,更新所述修复规则库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910047091.7/1.html,转载请声明来源钻瓜专利网。





