[发明专利]文本处理方法、装置、系统、设备以及存储介质有效
申请号: | 202111505371.1 | 申请日: | 2021-12-10 |
公开(公告)号: | CN114186550B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 陈泽裕;王海峰;吴甜;于佃海;马艳军;胡晓光 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F16/35;G06N3/0475;G06N3/08 |
代理公司: | 北京易光知识产权代理有限公司 11596 | 代理人: | 武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 系统 设备 以及 存储 介质 | ||
1.一种文本处理方法,包括:
采用文本处理加速算子对第一文本进行文本处理;以及
采用所述文本处理加速算子对文本处理后的内容进行并行加速;
其中,采用所述文本处理加速算子对所述第一文本进行文本处理,包括:
获取所述第一文本对应的第一张量;其中,所述第一文本包括字符串,所述第一张量为字符串张量;
对所述第一张量进行切分,得到多个切分结果;
对每个所述切分结果进行标识映射;以及
采用映射结果生成第二张量;其中,所述第二张量为整形张量;
其中,采用所述映射结果生成所述第二张量,包括:
根据所述第一张量的每一行字符串的映射结果得到所述第二张量的对应行数值;其中,所述第一张量包括N行字符串,所述第二张量包括与所述N行字符串分别对应的N行数值,N为正整数;
其中,采用所述文本处理加速算子对文本处理后的内容进行并行加速,包括:
采用多线程对所述第二张量进行并行处理。
2.根据权利要求1所述的方法,其中,对所述第一张量进行切分,得到多个切分结果,包括以下至少之一:
对所述第一张量进行分字处理,得到多个分字;
对所述第一张量进行分词处理,得到多个分词。
3.根据权利要求2所述的方法,其中,对每个所述切分结果进行标识映射,包括:
根据映射关系将每个分字和/或分词映射为数值。
4.根据权利要求1所述的方法,其中,所述文本处理由第一语言运行转换为由第二语言运行;其中,所述第一语言为解释型语言,所述第二语言为编译型语言。
5.根据权利要求1所述的方法,还包括:
采用自然语言理解模型对所述文本处理加速算子加速后的内容进行自然语言理解处理。
6.根据权利要求5所述的方法,其中,所述自然语言理解模型包括所述文本处理加速算子和转换编码器算子。
7.根据权利要求6所述的方法,其中,所述转换编码器算子包括融合的注意力机制算子和融合的前向反馈算子。
8.根据权利要求1所述的方法,还包括:
采用自然语言生成模型对自然语言理解模型处理后的内容进行自然语言生成处理。
9.根据权利要求8所述的方法,所述自然语言生成模型包括转换解码器算子和解码策略算子。
10.根据权利要求9所述的方法,其中,采用自然语言生成模型对所述自然语言理解模型处理后的内容进行自然语言生成处理,包括:
采用所述转换解码器算子识别解码器代码特征,以识别所采用的生成网络类型;调用所述生成网络类型对应的预置解码算子。
11.根据权利要求10所述的方法,其中,所述生成网络类型包括以下至少之一:
解码器Decoder类型;
前缀语言建模Prefix LM类型;
编码器解码器Encoder-Decoder类型。
12.根据权利要求9所述的方法,其中,采用自然语言生成模型对所述自然语言理解模型处理后的内容进行自然语言生成处理,还包括:
采用所述解码策略算子识别解码策略特征,以识别所采用的解码算法;采用所述解码算法将运行在第一语言上的循环代码自动翻译为第二语言的代码。
13.根据权利要求12所述的方法,其中,所述解码算法包括以下至少之一:
基于搜索的解码算法;
基于采样的解码算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111505371.1/1.html,转载请声明来源钻瓜专利网。