[发明专利]实体识别方法、装置、设备及存储介质在审
| 申请号: | 202010161830.8 | 申请日: | 2020-03-10 |
| 公开(公告)号: | CN111401065A | 公开(公告)日: | 2020-07-10 |
| 发明(设计)人: | 戚思骅;邹辉 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/30 |
| 代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
| 地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 识别 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,公开了一种实体识别方法、装置、设备及存储介质,用于提高实体识别的精确度和识别效率。所述方法包括:接收用户输入目标领域的待识别语句;将待识别语句进行切词处理得到对应词块并向量化处理得到文本词向量;将文本词向量分别输入预置深度学习模型、预置统计模型、预置词典模型或通过使用预置正则表达式进行实体预测,分别得到对应实体识别结果集合;并将得到对应实体识别结果集合进行合并;判断合并得到实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到待识别语句中各个字段对应的目标实体识别结果集合。
技术领域
本发明涉及人工智能的语义解析技术领域,尤其涉及一种实体识别方法、装置、设备及存储介质。
背景技术
目前在自然语言处理领域命名实体识别主要采用单一实体识别模型逐一对各实体进行实体识别,单一实体识别模型识别准确度低且识别效率低,并且无法识别不同类型的实体;此外,针对目标领域,譬如保险领域,尚不存在特定的实体识别算法。
发明内容
本发明的主要目的在于解决由于单一实体识别模型识别准确度低且效率低的技术问题。
为实现上述目的,本发明第一方面提供了一种实体识别方法,包括:
接收用户输入目标领域的待识别语句;
将所述待识别语句进行切词处理得到对应词块,并将所述词块进行向量化处理得到所述待识别语句的文本词向量;
将所述文本词向量输入预置深度学习模型进行实体预测,得到对应的第一实体识别结果集合;
将所述文本词向量输入预置统计模型对进行实体预测,得到对应的第二实体识别结果集合;
使用预置正则表达式对所述待识别语句进行实体预测,得到对应的第三实体识别结果集合;
将所述文本词向量输入预置词典模型进行实体预测,得到对应的第四实体识别结果集合;
将所述第一实体识别结果集合、第二实体识别结果集合、第三实体识别结果集合、第四实体识别结果集合进行合并,得到第五实体识别结果集合;
判断所述第五实体识别结果集合中是否存在一个实体对应多个识别结果,并根据判定结果进行相应处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。
可选的,在本发明第一方面的另一种实现方式中,所述根据判定结果进行相应处理、得到所述待识别语句中各个字段对应的目标实体识别结果集合包括:
若判定出不存在一个实体对应多个识别结果,则将第五实体识别结果集合作为所述待识别语句中各个字段对应的目标实体识别结果集合;
若判定出存在一个实体对应多个识别结果,则通过预置条件随机场模型对所述对应多个实体识别结果进行校验处理,所述预置条件随机场模型中预先设置所述实体识别结果应符合的约束性规则;
对校验处理后得到的第六实体识别结果集合采用预设融合规则进行融合处理,得到所述待识别语句中各个字段对应的目标实体识别结果集合。
可选的,在本发明第一方面的另一种实现方式中,所述预设融合规则具体为对所述第六实体识别结果集合中的实体识别结果进行具有相交关系的集合取并集处理、具有包含与被包含关系的集合进行元素去重处理、以及将不具有任何包含关系或不具有任何相交关系的集合进行保留处理。
可选的,在本发明第一方面的另一种实现方式中,在所述接收用户输入目标领域的待识别语句之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010161830.8/2.html,转载请声明来源钻瓜专利网。





