[发明专利]一种扩展文本样本的方法及系统有效
申请号: | 201911000025.0 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110727767B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 陈晓军;崔恒斌 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 文本 样本 方法 系统 | ||
本说明书实施例公开了一种扩展文本样本的方法及系统。所述方法包括:将第一文本在文本库中检索,获取与所述第一文本的相似度在设定区间的多个第二文本;基于所述第一文本和所述多个第二文本中的每一个在知识库中检索,确定所述第一文本的第一检索结果和所述第二文本的第二检索结果;所述知识库至少包含与所述第一文本关联的多个文本;判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件;将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。
技术领域
本说明书实施例涉及数据处理领域,特别涉及一种扩展文本样本的方法及系统。
背景技术
随着社交网络平台的快速发展,网络上的文本大量积聚,例如用户在网络上提出的问题以及其他用户或网站对这些问题的解答等。然而,一个文本通常会有多种不同的表达方式,应用这些文本时只需处理其中一个表达方式的文本即可。例如,文本作为样本用于模型训练时,仅标注一种表达方式的文本,其他表达方式采用相同的标注内容即可。又例如,自动答复系统中,不同表达方式的问题对应的答案可以是类似的。
如何有效地提高文本扩展的效率和通用性成为目前亟需解决的技术问题。
发明内容
本说明书实施例的一个方面提供一种扩展文本样本的方法,所述方法包括:将第一文本在文本库中检索,获取与所述第一文本的相似度在设定区间的多个第二文本;基于所述第一文本和所述多个第二文本中的每一个在知识库中检索,确定所述第一文本的第一检索结果和所述第二文本的第二检索结果;所述知识库至少包含与所述第一文本关联的多个文本;判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件;将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。
本说明书实施例的另一方面提供一种扩展文本样本的系统,所述系统包括:检索模块,用于将第一文本在文本库中检索,获取与所述第一文本的相似度在设定区间的多个第二文本;监督模块,用于基于所述第一文本和所述多个第二文本中的每一个在知识库中检索,确定所述第一文本的第一检索结果和所述第二文本的第二检索结果;所述知识库至少包含与所述第一文本关联的多个文本;判断模块,用于判断所述第一检索结果和所述第二检索结果之间的关系是否满足预设条件;确定模块,用于将满足所述预设条件的所述第二文本确定为所述第一文本的扩展文本。
本说明书实施例的一个方面提供一种扩展文本样本装置。所述装置包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现扩展文本样本的方法。
本说明书实施例的一个方面提供一种计算机可读存储介质。所述存储介质存储计算机指令,当所述计算机指令被计算机执行时,实现扩展文本样本的方法。
附图说明
本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的示例性扩展文本的示意图;
图2是根据本说明书的一些实施例所示的示例性扩展文本样本系统的模块图;
图3是根据本说明书的一些实施例所示的扩展文本样本方法的示例性流程图;
图4是根据本说明书的一些实施例所示的获取第二文本方法的示例性流程图;以及
图5是根据本说明书的一些实施例所示的确定检索结果方法的示例性流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911000025.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:敏感词的检测方法
- 下一篇:一种候选回答语句生成和自然语言选择方法及系统