[发明专利]一种语料的训练方法、装置、电子设备和存储介质有效
申请号: | 201810589564.1 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108804424B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 庄正中 | 申请(专利权)人: | 广州荔支网络技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/36 |
代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 李健富 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 训练 方法 装置 电子设备 存储 介质 | ||
1.一种语料的训练方法,其特征在于,包括:
获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;
将所述语言作为节点,按照所述从属关系生成语言树;
在所述语言树中,将所述地理区域划分至所述节点;
将处于同一个节点中的地理区域训练为目标语料;
其中,所述将处于同一个节点中的地理区域训练为目标语料,包括:
针对某个节点,确定针对所述节点训练的目标语料的数量;
在处于所述节点中的地理区域中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;
针对每个所述训练语料,查询所述目标地理区域之间的地理距离;
针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
2.根据权利要求1所述的方法,其特征在于,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:
若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。
3.根据权利要求1所述的方法,其特征在于,所述在所述语言树中,将所述地理区域划分至所述节点,包括:
在所述语言树中,查找所述地理区域对应的语言所表征的节点;
将所述地理区域写入所述节点中。
4.根据权利要求1所述的方法,其特征在于,所述针对某个节点,确定针对所述节点训练的目标语料的数量,包括:
针对某个节点,查询所述节点在所述语言树中所处的节点层次;
按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。
5.根据权利要求1所述的方法,其特征在于,所述目标地理区域包括中心地理区域与非中心地理区域,所述在处于所述节点中的地理区域训练中抽取所述数量的训练语料,包括:
在每次抽取训练语料时,在处于所述节点的地理区域中随机抽取一个地理区域作为中心地理区域;
在除所述中心地理区域的其他地理区域中随机抽取一个或多个地理区域作为非中心地理区域。
6.根据权利要求5所述的方法,其特征在于,所述针对每个所述训练语料,查询所述目标地理区域之间的地理距离,包括:
针对每个所述训练语料,查询所述中心地理区域与所述非中心地理区域之间的地理距离。
7.根据权利要求6所述的方法,其特征在于,所述针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料,包括:
针对每个所述训练语料,以所述中心地理区域作为基点,按照所述地理距离将所述非中心地理区域排序在所述中心地理区域两侧;
其中,所述非中心地理区域与所述中心地理区域之间的排序距离与所述非中心地理区域与所述中心地理区域之间的地理距离正相关。
8.根据权利要求1-7任一项所述的方法,其特征在于,还包括:
根据所述目标语料训练地理区域向量模型;
将地理区域输入至所述地理区域向量模型,以计算所述地理区域的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州荔支网络技术有限公司,未经广州荔支网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810589564.1/1.html,转载请声明来源钻瓜专利网。