[发明专利]中文命名实体识别方法、系统、设备及存储介质在审
| 申请号: | 202110644825.7 | 申请日: | 2021-06-09 |
| 公开(公告)号: | CN113420557A | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 徐卫志;龙开放;赵晗;于惠;范胜玉;耿艳芳;曹洋;蔡晓雅;李广震 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F16/33;G06N3/04;G06N3/08;G06N7/00 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中文 命名 实体 识别 方法 系统 设备 存储 介质 | ||
1.中文命名实体识别方法,其特征是,包括:
获取待识别的句子;
将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。
2.如权利要求1所述的中文命名实体识别方法,其特征是,所述中文命名实体识别模型,包括:依次连接的门控图神经网络GGNN、空洞卷积神经网络ID-CNNs和条件随机场CRF。
3.如权利要求1所述的中文命名实体识别方法,其特征是,所述训练后的中文命名实体识别模型,训练步骤包括:
构建训练集;所述训练集,包括已知中文命名实体的句子和多个词典;
基于训练集,构建门控图神经网络GGNN;
再将训练集,输入到门控图神经网络GGNN中,门控图神经网络GGNN对输入的每个字提取节点特征;
将节点特征,输入到空洞卷积神经网络ID-CNNs中再进行特征提取,得到最终特征;
将最终特征和已知中文命名实体的BIO标签,输入到条件随机场CRF中,得到训练后的中文实体识别模型。
4.如权利要求1所述的中文命名实体识别方法,其特征是,所述BIO标签,B表示当前字属于中文命名实体的开头,I表示当前字属于中文命名实体的中间,O表示当前字不属于中文命名实体。
5.如权利要求1所述的中文命名实体识别方法,其特征是,所述基于训练集,构建门控图神经网络GGNN;具体包括:
在构建门控图神经网络GGNN的过程中,将已知中文命名实体的句子中的每个字视为一个节点,根据当前字与相邻字所组成的词是否归属于一个词典,来建立节点与之间的边;若当前字与相邻字所组成的词归属于一个词典,则表示相邻节点之间存在连接边;否则,表示相邻节点之间不存在连接边;对于每个连接边,设置连接边的标签,所述连接边的标签用于表示词中两个字的前后顺序;当对一个字典判断完毕,则继续对下一个字典进行判断。
6.如权利要求1所述的中文命名实体识别方法,其特征是,将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体;具体包括:
将待识别的句子,输入到门控图神经网络GGNN中,门控图神经网络GGNN对输入的每个字提取节点特征;
将节点特征,输入到空洞卷积神经网络ID-CNNs中再进行特征提取,得到最终特征;
将最终特征,输入到条件随机场CRF中,得到待识别句子中每个字的BIO标签。
7.如权利要求1所述的中文命名实体识别方法,其特征是,所述待识别的句子,包括若干个中文命名实体。
8.中文命名实体识别系统,其特征是,包括:
获取模块,其被配置为:获取待识别的句子;
识别模块,其被配置为:将待识别的句子,输入到训练后的中文命名实体识别模型中,得到中文命名实体。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110644825.7/1.html,转载请声明来源钻瓜专利网。





