[发明专利]实体识别和文本分类的方法、存储介质和计算机设备有效
申请号: | 202310497375.2 | 申请日: | 2023-05-05 |
公开(公告)号: | CN116205221B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 靳雯;王全修;石江枫;赵洲洋;于伟;徐永昭 | 申请(专利权)人: | 北京睿企信息科技有限公司;日照睿安信息科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F16/35;G06N3/08 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 黄利萍 |
地址: | 100027 北京市东城区东直*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 文本 分类 方法 存储 介质 计算机 设备 | ||
1.一种实体识别和文本分类的方法,其特征在于,包括以下步骤:
S100,获取目标文本;
S200,使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类;所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型,所述第一神经网络模型的输入为所述目标文本,所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入,所述第一神经网络模型用于获取所述目标文本的编码向量,所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体,所述第三神经网络模型用于根据所述编码向量获取目标文本的类型;
所述目标神经网络模型的训练方法包括:
S210,获取第一文本样本集Text={text1,text2,…,textn,…,textN},textn为第一文本样本集中的第n个文本样本,n的取值范围为1到N,N为第一文本样本集包括的文本样本的数量;
S220,遍历Text,获取textn中实体的集合En={en,1,en,2,…,en,m,…,en,M},en,m为En中的第m个实体,m的取值范围为1到M,M为En中实体的数量;
S230,遍历En,获取en,m在textn中出现的词频fn,m,如果fn,m≥f0,则将en,m追加至预设的第n集合An;否则,不将en,m追加至An;An的初始化为空集;f0为预设的词频阈值;
S240,遍历{A1,A2,…,An,…,AN},如果An不为空集,且An中存在实体与textn的类型匹配,则将An追加至第二文本样本集Text’;否则,不将An追加至第二文本样本集Text’;Text’ 的初始化为空集;
S250,利用Text’对目标神经网络模型进行训练;
S240中,判断An中是否存在实体与textn的类型匹配的方法包括:
S241,获取第三文本样本集B={b1,b2,…,bq,…,bQ},bq为第三文本样本集中的第q个文本样本,q的取值范围为1到Q,Q为第三文本样本集中文本样本的数量;
S242,遍历B,对bq中各实体进行标注,得到B对应的文本样本标注集D;其中,当bq中某实体与预设的第r种类型匹配时,将bq中该实体标注为第r个预设类型值;r的取值范围为1到R,R为预设的类型数量;第r个预设类型值不等于第i个预设类型值,i的取值范围为1到R,i≠r;
S243,利用B和D对第四神经网络模型进行训练,得到经训练的第四神经网络模型;
S244,使用经训练的第四神经网络模型对An中各实体进行推理,得到An中各实体对应的预设类型值;
S245,如果An中存在实体对应的预设类型值与textn的类型对应的预设类型值相同,则判定An中存在实体与textn的类型匹配。
2.根据权利要求1所述的实体识别和文本分类的方法,其特征在于,S245中,通过将textn的类型在预设的类型关系库进行检索的方法获取textn的类型对应的预设类型值,所述预设的类型关系库中存储有文本的类型与预设类型值之间的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿企信息科技有限公司;日照睿安信息科技有限公司,未经北京睿企信息科技有限公司;日照睿安信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310497375.2/1.html,转载请声明来源钻瓜专利网。