[发明专利]一种提取实例模板的方法和设备有效
申请号: | 201610390418.7 | 申请日: | 2016-06-02 |
公开(公告)号: | CN107463549B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 史黎鑫;张海波;卞华明;管陶然;刘禹;赵宇;骆卫华;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 任嘉文 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 实例 模板 方法 设备 | ||
本申请涉及计算机技术领域,特别涉及一种提取实例模板的方法和设备,用以解决现有技术在提取过程中产生大量价值较低的模板,造成实例模板库中模板存储的信息冗余的问题。本申请实施例将所有原始语料实例划分为多组;针对多组原始语料实例中的一组原始语料实例中的一个原始语料实例,确定原始语料实例中的变量集合,并根据变量集合确定原始语料实例对应的备选模板;针对多组原始语料实例中的一组原始语料实例,从原始语料实例对应的备选模板中提取实例模板。由于本申请实施例确定原始语料实例中所有变量集合,增大对备选模板的召回数量;并且从原始语料实例对应的备选模板中提取出实例模板,从而保证提取出的实例模板的质量更高。
技术领域
本申请涉及计算机技术领域,特别涉及一种提取实例模板的方法和设备。
背景技术
随着计算机技术的不断发展,互联网成为当今最为便捷的获取信息平台。互联网中存在大量的语言信息,不仅语言种类繁多,而且语言又处于时时刻刻的变化之中。
为了便于互联网识别用户输入的各种语言信息,需要在互联网上存储大量的实例模板,在用户输入语言信息后,将用户输入的语言信息与实例模板进行匹配,从而识别出用户输入的语言信息。因此,实例模板的质量与互联网对用户输入的语言信息的识别能力密切相关。
现有技术在抽取实例模板时,采用的方法大多是多级实例模板抽取方法。如图1所示,多级实例模板抽取方法分为三个步骤:步骤101、对原始语料实例进行预处理,包括对原始语料实例进行浅层句法分析,其中包括组块识别,介词短语识别和谓语中心词识别;步骤102、对预处理后的原始语料实例进行语义替换,根据单词的语义信息进行模板变量常量的确定;步骤103、对原始语料实例进行模板抽取,按照组块模板、介词短语模板、句子模板的顺序进行抽取,最终得到原始语料实例所对应的多级翻译模板。多级实例模板抽取方法需要对原始语料实例进行组块划分及介词短语以及谓语中心词的识别,对句法分析工具具有很强的依赖性;同时,在构建实例模板库时,需按照组块、介词短语、实例主架模板的顺序进行模板抽取,抽取过程中会产生大量价值较低的模板。
目前提取实例模板的方法,在提取过程中会产生大量价值较低的模板,造成实例模板库中模板存储的信息冗余。
发明内容
本申请提供一种取实例模板的方法和设备,用以解决现有技术在提取过程中会产生大量价值较低的模板,造成实例模板库中模板存储的信息冗余的问题。
基于上述问题,本申请实施例提供一种提取实例模板的方法,包括:
根据原始语料实例之间的相似度,将所述原始语料实例划分为多组;
针对所述多组中的一组原始语料实例中的任意一个原始语料实例:
确定所述任意一个原始语料实例中的变量集合;
根据所述变量集合,确定所述任意一个原始语料实例对应的备选模板;
针对所述多组中的一组原始语料实例,从所述原始语料实例对应的备选模板中提取实例模板。
由于本申请实施例在提取实例模板时,首先将多个原始语料实例根据相似度分为多组,针对多组原始语料实例中的一组原始语料实例进行模板提取。并且在提取过程中确定原始语料实例中的所有变量集合,根据变量集合确定所有的备选模板;并且本申请实施例还需要从大量的备选模板中提取出实例模板,从而保证提取出的实例模板的质量更高。
可选的,从所述原始语料实例对应的备选模板中提取实例模板之后,还包括:
利用提取出的实例模板构建用于进行语义识别的模板库。
由于本申请实施例利用从原始语料实例中提取的实例模板构建成模板库,该模板库中包括大量的实例模板,可以利用该模板库进行语义识别。
可选的,所述变量集合包括下列类型中的部分或全部:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610390418.7/2.html,转载请声明来源钻瓜专利网。