[发明专利]一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质在审
申请号: | 202110403610.6 | 申请日: | 2021-04-15 |
公开(公告)号: | CN113095082A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 谭洋;段炼;周忠诚;张圣栋;黄九鸣;杜海燕 | 申请(专利权)人: | 湖南四方天箭信息科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F40/242;G06F16/31;G06F40/30 |
代理公司: | 长沙智嵘专利代理事务所(普通合伙) 43211 | 代理人: | 颜汉华 |
地址: | 410000 湖南省长沙市高新开*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 模型 进行 文本 处理 方法 装置 计算机 读取 存储 介质 | ||
1.一种基于多任务模型进行文本处理的方法,其特征在于,包括以下过程:
构建多任务模型;
将待处理的文本输入训练好的多任务模型,同时进行分词处理、词性标注和命名实体识别,输出标签文本;
将标签文本拆分成分词标签、词性标签和命名实体识别标签;
对拆分后的三种标签进行格式化处理,规范化后输出结果。
2.如权利要求1所述的基于多任务模型进行文本处理的方法,其特征在于,所述将待处理的文本输入训练好的多任务模型,同时进行分词处理、词性标注和命名实体识别,输出标签文本,具体包括以下过程:
将待处理的原始文本拆分成单个字符,并利用内部字符索引表和词典将单个字符转换成索引并生成索引文本,同时生成必要的数据;
将索引文本输入训练好的多任务模型中进行预测,输出每个字符的标签索引;
基于每个字符的标签索引生成预测数据标签的索引序列;
利用预先定义好的标签映射表将标签索引序列转换成标签文本。
3.如权利要求2所述的基于多任务模型进行文本处理的方法,其特征在于,所述将索引文本输入训练好的多任务模型中进行预测,输出每个字符的标签索引,具体包括以下过程:
利用BERT模型对输入的索引文本进行语义特征提取,得到输入文本的深度语义特征;
利用BiLSTM模型对提取的深度语义特征进行进一步的信息提炼,得到观测序列依赖矩阵;
利用CRF模型对观测序列依赖矩阵进行处理,得到状态序列依赖矩阵,输出每个字符的标签索引。
4.如权利要求1所述的基于多任务模型进行文本处理的方法,其特征在于,多任务模型的训练具体包括以下过程:
获取大量的标注语料作为样本数据,语料中包括原始文本、中文分词后的文本、分词标签、词性标注标签和命名实体标签;
对样本数据中的每一类型标签分别进行定义,并将三个标签体系融合成一个新的标签体系;
将所有的样本数据划分成训练集、测试集和验证集,对多任务模型进行训练,直至模型收敛。
5.如权利要求4所述的基于多任务模型进行文本处理的方法,其特征在于,对分词标签使用SBI进行定义,对词性标注标签使用大类别标签系统进行定义,对命名实体标签以BIO进行定义。
6.如权利要求5所述的基于多任务模型进行文本处理的方法,其特征在于,所述将三个标签体系融合成一个新的标签体系的过程具体为:用#将三个不同标签连接起来形成一个标签集合。
7.一种基于多任务模型进行文本处理的装置,其特征在于,包括:
模型构建模块,用于构建多任务模型;
预测模块,用于将待处理的文本输入训练好的多任务模型,同时进行分词处理、词性标注和命名实体识别,输出标签文本;
标签文本拆分模块,用于将标签文本拆分成分词标签、词性标签和命名实体识别标签;
格式化处理模块,用于对拆分后的三种标签进行格式化处理,规范化后输出结果。
8.如权利要求7所述的基于多任务模型进行文本处理的装置,其特征在于,所述预测模块包括:
预处理子模块,用于将待处理的原始文本拆分成单个字符,并利用内部字符索引表和词典将单个字符转换成索引并生成索引文本,同时生成必要的数据;
预测子模块,用于将预处理子模块输出的索引文本输入训练好的多任务模型中进行预测,输出每个字符的标签索引;
序列标注子模块,用于基于每个字符的标签索引生成预测数据标签的索引序列;标签文本转换子模块,用于利用预先定义好的标签映射表将标签索引序列转换成标签文本。
9.一种计算机装置,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如权利要求1~6任一项所述的方法的步骤。
10.一种计算机可读取存储介质,用于存储基于多任务模型进行文本处理的计算机程序,其特征在于,该计算机程序在计算机上运行时执行如权利要求1~6任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南四方天箭信息科技有限公司,未经湖南四方天箭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110403610.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防护效果好的高精度激光焊接设备
- 下一篇:一种土木建筑施工用实时混料设备