[发明专利]一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质在审

专利信息
申请号: 202110403610.6 申请日: 2021-04-15
公开(公告)号: CN113095082A 公开(公告)日: 2021-07-09
发明(设计)人: 谭洋;段炼;周忠诚;张圣栋;黄九鸣;杜海燕 申请(专利权)人: 湖南四方天箭信息科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06F40/242;G06F16/31;G06F40/30
代理公司: 长沙智嵘专利代理事务所(普通合伙) 43211 代理人: 颜汉华
地址: 410000 湖南省长沙市高新开*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 模型 进行 文本 处理 方法 装置 计算机 读取 存储 介质
【说明书】:

发明公开了一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质,该方法利用一个多任务模型即可同时进行分词处理、词性标注和命名实体识别这三个任务,模型加载快、预测时间短,不存在不同预测模型之间的误差传播,整体精度较高,并且在模型推理过程中通过将分词标签、词性标签和命名实体识别标签融合成一个标签文本,即三个任务使用同一套标签系统,避免了标签系统多而导致可能产生混淆的问题,在模型输出标签文本之后再将融合标签拆分成三个任务对应的标签,然后经过格式化处理后输出,结果更加规范、直观。

技术领域

本发明涉及自然语言处理技术领域,特别地,涉及一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质。

背景技术

自然语言处理通常包括分词、词性标注、命名实体识别等过程,其中,分词结果的准确与否直接影响到对搜索结果的相关度排序,而词性标注则有利于词义消歧、提高基于词义的特征、规划化和词型合并等,而命名实体识别可以识别出文本中具有特殊意义的实体,也是自然语言处理的重要组成部分。传统的自然语言处理方法是一个模型只处理一个任务,随着任务的增多需要更多的模型。具体地,先采用分词模型将文本分割成单个词或者字,然后再使用词性标注模型和命名实体识别模型分别进行处理。但是,采用上述处理方式会存在以下缺点:

1)分词模型的误差会传播至词性标注和命名识别中,整体精度较差;

2)需要训练三个不同的模型,需要很多的计算资源和训练时间;

3)模型加载和预测时间较长;

4)多个任务需要多个不同的标签体系,容易造成标签体系混淆。

而利用一个模型同时处理多个任务的难点在于:制作分词、词性标注和命名实体识别的训练语料和标签的难度较大,如何将三个任务的标签进行融合以及后续进行拆分。

发明内容

本发明提供了一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质,以解决现有的中文文本分析处理方式存在的整体精度差、使用的模型数量多、模型加载和预测时间长、标签体系容易混淆的技术问题。

根据本发明的一个方面,提供一种基于多任务模型进行文本处理的方法,包括以下过程:

构建多任务模型;

将待处理的文本输入训练好的多任务模型,同时进行分词处理、词性标注和命名实体识别,输出标签文本;

将标签文本拆分成分词标签、词性标签和命名实体识别标签;

对拆分后的三种标签进行格式化处理,规范化后输出结果。

进一步地,所述将待处理的文本输入训练好的多任务模型,同时进行分词处理、词性标注和命名实体识别,输出标签文本,具体包括以下过程:

将待处理的原始文本拆分成单个字符,并利用内部字符索引表和词典将单个字符转换成索引并生成索引文本,同时生成必要的数据;

将索引文本输入训练好的多任务模型中进行预测,输出每个字符的标签索引;

基于每个字符的标签索引生成预测数据标签的索引序列;

利用预先定义好的标签映射表将标签索引序列转换成标签文本。

进一步地,所述将索引文本输入训练好的多任务模型中进行预测,输出每个字符的标签索引,具体包括以下过程:

利用BERT模型对输入的索引文本进行语义特征提取,得到输入文本的深度语义特征;

利用BiLSTM模型对提取的深度语义特征进行进一步的信息提炼,得到观测序列依赖矩阵;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南四方天箭信息科技有限公司,未经湖南四方天箭信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110403610.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top