[发明专利]一种提取实例模板的方法和设备有效
申请号: | 201610390418.7 | 申请日: | 2016-06-02 |
公开(公告)号: | CN107463549B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 史黎鑫;张海波;卞华明;管陶然;刘禹;赵宇;骆卫华;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 任嘉文 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 实例 模板 方法 设备 | ||
1.一种提取实例模板的方法,其特征在于,该方法包括:
根据原始语料实例之间的相似度,将所述原始语料实例划分为多组;
针对所述多组中的一组原始语料实例中的任意一个原始语料实例:
确定所述任意一个原始语料实例中的变量集合;
根据所述变量集合,确定所述任意一个原始语料实例对应的备选模板;
针对所述多组中的一组原始语料实例,从所述原始语料实例对应的备选模板中提取实例模板;
所述根据原始语料实例之间的相似度,将所述原始语料实例划分为多组,包括:
将每个原始语料实例作为一个组;
根据每两个原始语料实例之间的相似度,确定每两个组之间的相似度;
将相似度最大的两个组合为一组;
判断当前划分的组是否满足停止划分条件,如果满足,则停止划分,否则返回根据每两个原始语料实例之间的相似度,确定每两个组之间的相似度的步骤;
所述变量集合满足下列条件中的部分或全部:
变量集合中变量的个数不大于第一阈值;
变量集合中变量的长度不大于设定的片段数量;
变量集合中任意两个变量在原始语料实例中的位置之间至少包括一个非变量的片段。
2.如权利要求1所述的方法,其特征在于,从所述原始语料实例对应的备选模板中提取实例模板之后,还包括:
利用提取出的实例模板构建用于进行语义识别的模板库。
3.如权利要求1所述的方法,其特征在于,所述变量集合包括下列类型中的部分或全部:
单一变量、组合变量;
其中,所述单一变量未嵌套其他变量,所述组合变量嵌套单一变量。
4.如权利要求3所述的方法,其特征在于,所述单一变量为所述原始语料实例中能够进行抽象泛化的语料,和/或所述组合变量为所述原始语料实例中能够进行抽象泛化的语料。
5.如权利要求1所述的方法,其特征在于,所述根据所述变量集合,确定所述任意一个原始语料实例对应的备选模板,包括:
针对所述多组中的一组原始语料实例中的任意一个原始语料实例,根据所述原始语料实例中的变量,确定多个变量集合;
对每个变量集合进行泛化处理,确定所述原始语料实例对应的备选模板。
6.如权利要求1所述的方法,其特征在于,所述从所述原始语料实例对应的备选模板中提取实例模板,包括:
针对所述多组中的一组原始语料实例,从所述原始语料实例对应的备选模板中提取满足筛选条件的备选模板作为实例模板;
其中,所述筛选条件为下列条件中的部分或全部:
备选模板的模板覆盖度不小于第二阈值;
备选模板的模板抽象度不小于第三阈值;
备选模板中非变量的片段数量不小于第四阈值。
7.如权利要求6所述的方法,其特征在于,根据下列方式确定所述备选模板的模板覆盖度:
针对任意一个备选模板,将所述备选模板对应原始语料实例的数量作为所述备选模板的模板覆盖度。
8.如权利要求6所述的方法,其特征在于,根据下列方式确定所述备选模板的模板抽象度:
将所述备选模板的模板覆盖度和所述备选模板的长度的乘积,与所述备选模板对应的原始语料实例的长度之和的比值作为所述备选模板的模板抽象度。
9.如权利要求1所述的方法,其特征在于,所述停止划分条件为下列条件中的部分或全部:
当前划分的组的数量不大于第五阈值;
当前划分的组中每两个组之间最大的相似度满足设定的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610390418.7/1.html,转载请声明来源钻瓜专利网。