[发明专利]实体识别和文本分类的方法、存储介质和计算机设备有效
| 申请号: | 202310497375.2 | 申请日: | 2023-05-05 |
| 公开(公告)号: | CN116205221B | 公开(公告)日: | 2023-07-14 |
| 发明(设计)人: | 靳雯;王全修;石江枫;赵洲洋;于伟;徐永昭 | 申请(专利权)人: | 北京睿企信息科技有限公司;日照睿安信息科技有限公司 |
| 主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F16/35;G06N3/08 |
| 代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 黄利萍 |
| 地址: | 100027 北京市东城区东直*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 识别 文本 分类 方法 存储 介质 计算机 设备 | ||
本申请涉及电数字数据处理技术领域,特别是涉及实体识别和文本分类的方法、存储介质和计算机设备。所述方法包括以下步骤:S100,获取目标文本;S200,使用经训练的目标神经网络模型对目标文本进行实体识别和文本分类;目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型,第一神经网络模型的输入为目标文本,第一神经网络模型的输出为第二神经网络模型和第三神经网络模型的输入,第一神经网络模型用于获取目标文本的编码向量,第二神经网络模型用于根据编码向量识别目标文本中的实体,第三神经网络模型用于根据编码向量获取目标文本的类型。本发明的目标神经网络模型具有对文本进行分类和实体识别的功能。
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及实体识别和文本分类的方法、存储介质和计算机设备。
背景技术
现有技术中的实体识别任务和文本分类任务是相对独立的,即利用一个实体识别模型完成实体识别任务,利用另一个分类模型完成文本分类任务,对实体识别模型的训练过程和对分类模型的训练过程是分开进行的,两训练过程互不影响。对于用户想要同时对文本进行实体识别以及获取文本的类型的场景,若用户需要分别将文本输入到实体识别模型和分类模型,那么操作较为繁琐,用户的体验较差。
发明内容
本发明目的在于,提供一种实体识别和文本分类的方法、存储介质和计算机设备,用户只需将目标文本输入到经训练的目标神经网络模型,就能够获取对目标文本进行实体识别的结果以及对目标文本进行分类的结果,操作较为简便,用户体验感较好。
根据本发明的第一方面,提供了一种实体识别和文本分类的方法,包括以下步骤:
S100,获取目标文本。
S200,使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类;所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型,所述第一神经网络模型的输入为所述目标文本,所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入,所述第一神经网络模型用于获取所述目标文本的编码向量,所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体,所述第三神经网络模型用于根据所述编码向量获取目标文本的类型。
所述目标神经网络模型的训练方法包括:
S210,获取第一文本样本集Text={text1,text2,…,textn,…,textN},textn为第一文本样本集中的第n个文本样本,n的取值范围为1到N,N为第一文本样本集包括的文本样本的数量。
S220,遍历Text,获取textn中实体的集合En={en,1,en,2,…,en,m,…,en,M},en,m为En中的第m个实体,m的取值范围为1到M,M为En中实体的数量。
S230,遍历Text,获取en,m在textn中出现的词频fn,m,如果fn,m≥f0,则将en,m追加至预设的第n集合An;否则,不将en,m追加至An;An的初始化为空集;f0为预设的词频阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿企信息科技有限公司;日照睿安信息科技有限公司,未经北京睿企信息科技有限公司;日照睿安信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310497375.2/2.html,转载请声明来源钻瓜专利网。





