[发明专利]问答样本的扩展方法及装置有效
申请号: | 201910662208.2 | 申请日: | 2019-07-22 |
公开(公告)号: | CN110413753B | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 姚开盛;张家兴;刘佳;李小龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 样本 扩展 方法 装置 | ||
1.一种问答样本的扩展方法,其中,所述问答样本包括第一样本,所述第一样本包括第一问题和预先标注的第一答案,所述方法包括:
对所述第一问题进行语法分析,以确定所述第一问题中各词汇对应的词性;
针对所述第一样本生成预定数值范围内的随机数,检测所生成的随机数是否属于选定的样本扩展随机数,其中,所述样本扩展随机数是从所述预定数值范围内选定的数值,用于从问答样本中筛选出相应样本以进行扩展;
在所生成的随机数属于样本扩展随机数的情况下,删除所述第一问题中的预定词性的词汇,以生成至少一个扩展问题,其中,所述预定词性的词汇包括以下中的至少一项:与当前业务相关的名词、具有可替换性的词汇;
基于所述至少一个扩展问题和所述第一答案,生成扩展样本。
2.根据权利要求1所述的方法,其中,样本扩展随机数的数量与所述预定数值范围内的数值的数量具有预定比例。
3.根据权利要求1所述的方法,其中,所述删除所述第一问题中的预定词性的词汇包括:
从所述第一问题中删除预定词性的词汇中的任一个词汇。
4.根据权利要求1所述的方法,其中,所述词汇词性包括以下至少一种:名词、动词、动词组、疑问词。
5.根据权利要求1所述的方法,其中,所述预定词性包括名词、疑问词中的一项。
6.根据权利要求1所述的方法,其中,所述基于所述至少一个扩展问题和所述第一答案,生成扩展样本包括:
将各个扩展问题分别与所述第一答案组合,生成各个扩展样本。
7.根据权利要求1所述的方法,其中,对所述第一问题扩展得到的各个扩展问题包括第一扩展问题,所述基于所述至少一个扩展问题和所述第一答案,生成扩展样本包括:
检测对各个问答样本的其他扩展问题中是否存在与所述第一扩展问题相同的扩展问题;
在存在与所述第一扩展问题相同的扩展问题的情况下,按照预定模板为所述第一扩展问题标注第一扩展答案,生成第一扩展样本。
8.一种问答样本的扩展装置,其中,所述问答样本包括第一样本,所述第一样本包括第一问题和预先标注的第一答案,所述装置包括:
分析单元,配置为对所述第一问题进行语法分析,以确定所述第一问题中各词汇对应的词性;
检测单元,配置为针对所述第一样本生成预定数值范围内的随机数,检测所生成的随机数是否属于选定的样本扩展随机数,其中,所述样本扩展随机数是从所述预定数值范围内选定的数值,用于从问答样本中筛选出相应样本以进行扩展;
扩展单元,配置为在所生成的随机数属于样本扩展随机数的情况下,删除所述第一问题中的预定词性的词汇,以生成至少一个扩展问题,其中,所述预定词性的词汇包括以下中的至少一项:与当前业务相关的名词、具有可替换性的词汇;
生成单元,配置为基于所述至少一个扩展问题和所述第一答案,生成各个扩展样本。
9.根据权利要求8所述的装置,其中,样本扩展随机数的数量与所述预定数值范围内的数值的数量具有预定比例。
10.根据权利要求8所述的装置,其中,所述扩展单元进一步配置为:
从所述第一问题中删除预定词性的词汇中的任一个词汇。
11.根据权利要求8所述的装置,其中,所述词汇词性包括以下至少一种:名词、动词、动词组、疑问词。
12.根据权利要求8所述的装置,其中,所述预定词性包括名词、疑问词中的一项。
13.根据权利要求8所述的装置,所述生成单元进一步配置为:
将各个扩展问题分别与所述第一答案组合,生成各个扩展样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910662208.2/1.html,转载请声明来源钻瓜专利网。