[发明专利]实体识别和文本分类的方法、存储介质和计算机设备有效

申请号：	202310497375.2	申请日：	2023-05-05
公开（公告）号：	CN116205221B	公开（公告）日：	2023-07-14
发明（设计）人：	靳雯;王全修;石江枫;赵洲洋;于伟;徐永昭	申请（专利权）人：	北京睿企信息科技有限公司;日照睿安信息科技有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/30;G06F16/35;G06N3/08
代理公司：	北京锺维联合知识产权代理有限公司 11579	代理人：	黄利萍
地址：	100027 北京市东城区东直***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体识别文本分类方法存储介质计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种实体识别和文本分类的方法，其特征在于，包括以下步骤：

S100，获取目标文本；

S200，使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类；所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型，所述第一神经网络模型的输入为所述目标文本，所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入，所述第一神经网络模型用于获取所述目标文本的编码向量，所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体，所述第三神经网络模型用于根据所述编码向量获取目标文本的类型；

所述目标神经网络模型的训练方法包括：

S210，获取第一文本样本集Text={text₁,text₂,…,text_n,…,text_N}，text_n为第一文本样本集中的第n个文本样本，n的取值范围为1到N，N为第一文本样本集包括的文本样本的数量；

S220，遍历Text，获取text_n中实体的集合E_n={e_n,1,e_n,2,…,e_n,m,…,e_n,M}，e_n,m为E_n中的第m个实体，m的取值范围为1到M，M为E_n中实体的数量；

S230，遍历E_n，获取e_n,m在text_n中出现的词频f_n,m，如果f_n,m≥f₀，则将e_n,m追加至预设的第n集合A_n；否则，不将e_n,m追加至A_n；A_n的初始化为空集；f₀为预设的词频阈值；

S240，遍历{A₁,A₂,…,A_n,…,A_N}，如果A_n不为空集，且A_n中存在实体与text_n的类型匹配，则将A_n追加至第二文本样本集Text’；否则，不将A_n追加至第二文本样本集Text’；Text’ 的初始化为空集；

S250，利用Text’对目标神经网络模型进行训练；

S240中，判断A_n中是否存在实体与text_n的类型匹配的方法包括：

S241，获取第三文本样本集B={b₁,b₂,…,b_q,…,b_Q}，b_q为第三文本样本集中的第q个文本样本，q的取值范围为1到Q，Q为第三文本样本集中文本样本的数量；

S242，遍历B，对b_q中各实体进行标注，得到B对应的文本样本标注集D；其中，当b_q中某实体与预设的第r种类型匹配时，将b_q中该实体标注为第r个预设类型值；r的取值范围为1到R，R为预设的类型数量；第r个预设类型值不等于第i个预设类型值，i的取值范围为1到R，i≠r；

S243，利用B和D对第四神经网络模型进行训练，得到经训练的第四神经网络模型；

S244，使用经训练的第四神经网络模型对A_n中各实体进行推理，得到A_n中各实体对应的预设类型值；

S245，如果A_n中存在实体对应的预设类型值与text_n的类型对应的预设类型值相同，则判定A_n中存在实体与text_n的类型匹配。

2.根据权利要求1所述的实体识别和文本分类的方法，其特征在于，S245中，通过将text_n的类型在预设的类型关系库进行检索的方法获取text_n的类型对应的预设类型值，所述预设的类型关系库中存储有文本的类型与预设类型值之间的对应关系。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京睿企信息科技有限公司;日照睿安信息科技有限公司，未经北京睿企信息科技有限公司;日照睿安信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310497375.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种具备跨线功能的轻便式除冻巡线装置
下一篇：增强现实显示设备及其显示方法、车辆、移动终端、介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]实体识别和文本分类的方法、存储介质和计算机设备有效

专利文献下载