[发明专利]一种信息处理方法、装置及计算机可读存储介质有效

申请号：	202010905735.4	申请日：	2020-09-01
公开（公告）号：	CN112052320B	公开（公告）日：	2023-09-29
发明（设计）人：	周辉阳;闫昭;李勤	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/35;G06F16/36;G06F40/30
代理公司：	深圳翼盛智成知识产权事务所(普通合伙) 44300	代理人：	李汉亮
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种信息处理方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种信息处理方法、装置及计算机可读存储介质，本申请实施例通过根据目标语料信息生成多个测试语料信息；对每一测试语料信息与目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；通过第一预设模型对测试语料信息对的文字相似特征维度进行处理，得到第一测试分数；将第一测试分数低于第一预设阈值的测试语料信息对输入第二预设模型进行语义相似特征维度处理，得到第二测试分数；将第二测试分数高于第二预设阈值的测试语料信息对输入数据库。以此，通过目标语料信息生成多个测试语料信息，通过第一预设模型和第二预设模型组合筛选出文字不相似但语义相似的测试语料信息，语料覆盖更全面，提升了信息处理的效率。

技术领域

本申请涉及计算机技术领域，具体涉及一种信息处理方法、装置及计算机可读存储介质。

背景技术

自然语言处理(NLP，Natural Language Processing)是使用自然语言同计算机进行通讯的技术。因为处理自然语言的关键是要让计算机理解自然语言，所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding)。

现有技术中，为了构建更好的问答领域，需要获取大量优质的语料信息，而语料信息的生成一般采用两种途径，一种是通过人力的搜索进行添加补全，在人力补全之后还需要开发进行审核后才能上线，另一种为通过日志挖掘，通过关键字去召回用户的问句，然后人工审核标注，判断是否属于目标领域。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有技术中，人工成本较大，语料信息处理速度慢，导致处理周期较长，且语料信息覆盖不够全面。

发明内容

本申请实施例提供一种信息处理方法、装置及计算机可读存储介质，可以提升信息处理的效率，且使得语料信息覆盖更全面。

为解决上述技术问题，本申请实施例提供以下技术方案：

一种信息处理方法，包括：

根据目标语料信息生成多个测试语料信息；

对每一测试语料信息与所述目标语料信息对应的初始语料信息进行组合，生成测试语料信息对；