[发明专利]一种扩展文本样本的方法及系统有效
申请号: | 201911000025.0 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110727767B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 陈晓军;崔恒斌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 文本 样本 方法 系统 | ||
1.一种扩展文本样本的方法,包括:
将第一文本在文本库中检索,获取与所述第一文本的相似度在设定区间的多个第二文本;
基于所述第一文本和所述多个第二文本中的每一个在知识库中检索,确定所述第一文本的第一检索结果和所述第二文本的第二检索结果;所述知识库至少包含与所述第一文本关联的多个文本;
判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件;
将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。
2.如权利要求1所述的方法,所述将第一文本在文本库中检索,获取与所述第一文本的相似度在设定区间的多个第二文本包括:
将所述第一文本在所述文本库中检索,获取与所述第一文本相似的多个第三文本;
选取与所述第一文本相似度大于第二阈值、小于第一阈值的所述第三文本作为所述多个第二文本;其中,所述设定区间的最大值为所述第一阈值,所述设定区间的最小值为所述第二阈值。
3.如权利要求2所述的方法,所述选取与所述第一文本相似度大于第二阈值、小于第一阈值的所述第三文本作为所述多个第二文本包括:
基于所述多个第三文本中每一个与所述第一文本之间的相似度,对所述多个第三文本进行排序;
提取前N个所述第三文本,其中N为大于2的整数,N由所述第二阈值决定;
筛选所述前N个所述第三文本中与所述第一文本相似度小于所述第一阈值的文本作为所述多个第二文本。
4.如权利要求1所述的方法,所述第一文本是线下人工标注标签的文本。
5.如权利要求1所述的方法,所述文本库包含多个线上收集的文本。
6.如权利要求1所述的方法,所述基于所述第一文本和所述多个第二文本中的每一个在知识库中检索,确定所述第一文本的第一检索结果和所述第二文本的第二检索结果包括:
将所述第一文本和所述多个第二文本中的每一个分别在所述知识库中检索,分别获取与所述第一文本相似的多个第四文本、与所述第二文本相似的多个第五文本;
基于所述第四文本与所述第一文本之间的第一相似度对所述第四文本排序,提取前X个所述第四文本作为所述第一检索结果;其中,所述X为大于0的整数;
基于所述第五文本与所述第二文本之间的第二相似度对所述第五文本排序,提取前Y个所述第五文本作为所述第二检索结果;其中,所述Y为大于0的整数。
7.如权利要求1所述的方法,所述预设条件包括所述第一检索结果中的文本和第二检索结果中的文本的相似度高于第三阈值。
8.如权利要求1所述的方法,还包括:
为所述第一文本的所述扩展文本标记所述第一文本的标签。
9.一种扩展文本样本的系统,包括:
检索模块,用于将第一文本在文本库中检索,获取与所述第一文本的相似度在设定区间的多个第二文本;
监督模块,用于基于所述第一文本和所述多个第二文本中的每一个在知识库中检索,确定所述第一文本的第一检索结果和所述第二文本的第二检索结果;所述知识库至少包含与所述第一文本关联的多个文本;
判断模块,用于判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件;
确定模块,用于将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。
10.如权利要求9所述的系统,所述检索模块还用于:
将所述第一文本在所述文本库中检索,获取与所述第一文本相似的多个第三文本;
选取与所述第一文本相似度大于第二阈值、小于第一阈值的所述第三文本作为所述多个第二文本;其中,所述设定区间的最大值为所述第一阈值,所述设定区间的最小值为所述第二阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911000025.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:敏感词的检测方法
- 下一篇:一种候选回答语句生成和自然语言选择方法及系统