[发明专利]实体识别方法、装置、设备及存储介质在审
| 申请号: | 202010161830.8 | 申请日: | 2020-03-10 |
| 公开(公告)号: | CN111401065A | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 戚思骅;邹辉 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/30 |
| 代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
| 地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 识别 方法 装置 设备 存储 介质 | ||
1.一种实体识别方法,其特征在于,包括:
接收用户输入目标领域的待识别语句;
将所述待识别语句进行切词处理得到对应词块,并将所述词块进行向量化处理得到所述待识别语句的文本词向量;
将所述文本词向量输入预置深度学习模型进行实体预测,得到对应的第一实体识别结果集合;
将所述文本词向量输入预置统计模型对进行实体预测,得到对应的第二实体识别结果集合;
使用预置正则表达式对所述待识别语句进行实体预测,得到对应的第三实体识别结果集合;
将所述文本词向量输入预置词典模型进行实体预测,得到对应的第四实体识别结果集合;
将所述第一实体识别结果集合、第二实体识别结果集合、第三实体识别结果集合、第四实体识别结果集合进行合并,得到第五实体识别结果集合;
判断所述第五实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。
2.根据权利要求1所述的实体识别方法,其特征在于,所述根据判定结果进行相应处理、得到所述待识别语句中各个字段对应的目标实体识别结果集合包括:
若判定出不存在一个实体对应多个识别结果,则将第五实体识别结果集合作为所述待识别语句中各个字段对应的目标实体识别结果集合;
若判定出存在一个实体对应多个识别结果,则通过预置条件随机场模型对所述对应多个实体识别结果进行校验处理,所述预置条件随机场模型中预先设置所述实体识别结果应符合的约束性规则;
对校验处理后得到的第六实体识别结果集合采用预设融合规则进行融合处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。
3.根据权利要求2所述的实体识别方法,其特征在于,所述预设融合规则具体为对所述第六实体识别结果集合中的实体识别结果进行具有相交关系的集合取并集处理、具有包含与被包含关系的集合进行元素去重处理、以及将不具有任何包含关系或不具有任何相交关系的集合进行保留处理。
4.根据权利要求1所述的实体识别方法,其特征在于,在所述接收用户输入目标领域的待识别语句之前,所述方法还包括:
针对所述目标领域配置待识别实体类型,所述待识别实体类型包括第一实体类型、第二实体类型、第三实体类型、第四实体类型,所述第一实体类型包含的实体的命名种类多且无规则,所述第二实体类型包含的实体的命名具备一定特征或采用约定俗成方式进行命名,所述第三实体类型包含的实体的命名具备明显特征,所述第四实体类型包含的实体的命名数据较完整且固定。
5.根据权利要求1所述的实体识别方法,其特征在于,在所述接收用户输入目标领域的待识别语句之前,所述方法还包括:
获取目标领域语料库中经标签标注的语料作为待训练语料;所述标签为所述待识别实体类型;
将所述待训练语料输入BERT模型进行向量化处理产生词向量;
将所述产生的词向量输入长短期记忆网络模型进行标签预测,得到对应的预测标签;
将所述预测标签输入条件随机场模型,得到对应的合法预测标签;所述合法预测标签为符合所述条件随机场模型的约束性规则的预测标签;
当所述长短期记忆网络模型的损失函数达到预设阈值时停止模型训练,得到对应的预置深度学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010161830.8/1.html,转载请声明来源钻瓜专利网。





