[发明专利]一种扩充样本语料的语料正则式的方法和系统在审
| 申请号: | 201910325710.4 | 申请日: | 2019-04-22 |
| 公开(公告)号: | CN111859975A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 李选洪 | 申请(专利权)人: | 广东小天才科技有限公司 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/36;G06F16/33 |
| 代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
| 地址: | 523851 广东省东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 扩充 样本 语料 正则 方法 系统 | ||
本发明提供了一种扩充样本语料的语料正则式的方法和系统,其方法包括:根据实体内容建立知识图谱;获取样本语料,根据所述样本语料生成语料正则式;对所述样本语料进行分词得到语料分词;将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;根据所述实体概念调整所述语料正则式得到正则表达式。本发明通过知识图谱获取样本语料中实体分词对应的上一层级的实体概念,根据实体概念扩充根据样本语料得到的语料正则式,从而增加语义正则的泛化能力。
技术领域
本发明涉及语义解析技术领域,尤指一种扩充样本语料的语料正则式的方法和系统。
背景技术
当前随着网络的飞速发展,通过计算机智能处理信息也是越来越普遍。计算机、智能设备等每天可能需要处理成千上万的信息。智能设备一般通过分析语料得到对应的语料正则式,从而解析语料。但是常规语料正则式的编写通过用户语料句式的解析和词库扩充,泛化能力较差。因此,需要一种扩充样本语料的语料正则式的方法和系统提高语料正则式的泛化能力。
发明内容
本发明的目的是提供一种扩充样本语料的语料正则式的方法和系统,实现通过知识图谱获取样本语料中实体分词对应的上一层级的实体概念,根据实体概念扩充根据样本语料得到的语料正则式,从而增加语义正则的泛化能力的目的。
本发明提供的技术方案如下:
本发明提供一种扩充样本语料的语料正则式的方法,包括:
根据实体内容建立知识图谱;
获取样本语料,根据所述样本语料生成语料正则式;
对所述样本语料进行分词得到语料分词;
将所述语料分词和所述知识图谱的所述实体内容进行比对,若比对相符则将相应的语料分词定义为实体分词;
根据所述知识图谱获取所述实体分词对应的上一层级的实体概念;
根据所述实体概念调整所述语料正则式得到正则表达式。
进一步的,根据实体建立知识图谱具体包括:
获取所述实体内容以及所述实体内容之间的关联关系;
根据所述实体内容以及所述关联关系建立所述知识图谱。
进一步的,根据所述实体概念调整所述语料正则式得到正则表达式具体包括:
选取目标实体分词对应的目标实体概念,所述目标实体分词为所述实体分词中的任意一个;
根据所述知识图谱判断所述目标实体概念与其余的实体分词是否匹配;
若匹配,则将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词保持不变,得到所述正则表达式。
进一步的,还包括:
若不匹配,则根据所述知识图谱获取其余的实体分词对应的上一层级的实体概念,所述其余的实体分词对应的实体概念与所述目标实体概念匹配;
将所述语料正则式中的所述目标实体分词替换为所述目标实体概念,其余的实体分词替换为对应的实体概念,得到所述正则表达式。
进一步的,还包括:
根据所述知识图谱获取所述正则表达式中实体概念下一层级的所有实体内容;
将所述所有实体内容作为对应的正则表达式中实体概念的语义槽。
本发明还提供一种扩充样本语料的语料正则式的系统,包括:
知识图谱建立模块,根据实体内容建立知识图谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910325710.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种笔记本用外接式触摸板
- 下一篇:一种红外弱小目标检测方法及检测系统





