[发明专利]文本样本的生成方法、终端设备以及计算机可读存储介质在审
申请号: | 202110276252.7 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113051888A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李雯 | 申请(专利权)人: | OPPO广东移动通信有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/242;G06F40/289 |
代理公司: | 广州德科知识产权代理有限公司 44381 | 代理人: | 杨中强;万振雄 |
地址: | 523860 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 样本 生成 方法 终端设备 以及 计算机 可读 存储 介质 | ||
本发明实施例公开了一种文本样本的生成方法、文本样本生成装置以及终端设备,用于终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本。本发明实施例方法包括:获取样本规则,以及所述样本规则的槽位值;根据所述槽位值,获取所述槽位值对应的槽位值词典;根据所述槽位值词典,获取所述槽位值词典对应的槽位;根据所述槽位值和所述槽位,得到文本;将所述文本和预设句式进行结合,得到文本样本。
技术领域
本发明涉及终端设备应用领域,尤其涉及一种文本样本的生成方法、终端设备以及计算机可读存储介质。
背景技术
随着科技的迅速发展,在互联网大数据背景下的产品和数据都是非常重要的。其中,数据的好坏以及数据量的大小往往可以决定终端设备中算法模型的上限。然而,终端设备获取数据的方式常常是费时费力的,与此同时,该终端设备也不能够获取完整度较高的数据。
目前,在语音助手方面,由于现阶段业内还没有一个较好的获取用户反馈的方式来形成终端设备的闭环,所以无法从终端设备的产品日志中获取大量的标注数据。其中,终端设备获取数据的方式可以是从产品日志中获取大量的用户数据,然后采用人工标注该用户数据的方式,也可以是从现有的网络上获取已经公开的数据集的方式。但是,无论是哪种方式,终端设备都会存在获取槽位的准确率较低的问题,从而导致该终端设备获取的数据不够完整。
发明内容
本发明实施例提供了一种文本样本的生成方法、终端设备以及计算机可读存储介质,用于终端设备能够提高获取槽位的准确率,以得到完整度较高的文本样本。
本发明实施例第一方面提供了一种文本样本的生成方法,可以包括:
获取样本规则,以及该样本规则的槽位值;
根据该槽位值,获取该槽位值对应的槽位值词典;
根据该槽位值词典,获取该槽位值词典对应的槽位;
根据该槽位值和该槽位,得到文本;
将该文本和预设句式进行结合,得到文本样本。
可选的,该预设句式包括文本称呼、文本前缀以及文本后缀。
本发明实施例第二方面提供了一种终端设备,可以包括:
获取模块,用于获取样本规则,以及该样本规则的槽位值;根据该槽位值,获取该槽位值对应的槽位值词典;根据该槽位值词典,获取该槽位值词典对应的槽位;
处理模块,用于根据该槽位值和该槽位,得到文本;将该文本和预设句式进行结合,得到文本样本。
本发明实施例第三方面提供了一种终端设备,可以包括:
存储有可执行程序代码的存储器;
以及该存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,所述可执行程序代码被所述处理器执行时,使得所述处理器实现如本发明实施例第一方面所述的方法。
本发明实施例第四方面提供一种计算机可读存储介质,其上存储有可执行程序代码,所述可执行程序代码被处理器执行时,实现如本发明实施例第一方面所述的方法。
本发明实施例第五方面公开一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行本发明实施例第一方面公开的任意一种所述的方法。
本发明实施例第六方面公开一种应用发布平台,该应用发布平台用于发布计算机程序产品,其中,当该计算机程序产品在计算机上运行时,使得该计算机执行本发明实施例第一方面公开的任意一种所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于OPPO广东移动通信有限公司,未经OPPO广东移动通信有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276252.7/2.html,转载请声明来源钻瓜专利网。