[发明专利]嵌套命名实体识别方法及系统、电子设备及可读介质在审
| 申请号: | 201911291456.7 | 申请日: | 2019-12-16 |
| 公开(公告)号: | CN110956042A | 公开(公告)日: | 2020-04-03 |
| 发明(设计)人: | 温秀秀;刘佩云;郭橙;潘博文;高原原 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
| 地址: | 100086 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 嵌套 命名 实体 识别 方法 系统 电子设备 可读 介质 | ||
1.一种嵌套命名实体识别方法,其特征在于,包括以下步骤:
基于预设的文本标记方法对语料库中的各文本进行标记,得到标记集合,所述标记集合包括文本及对应的命名实体,并且,至少一个所述文本对应多个所述命名实体;
基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,所述簇集合包括文本及与该文本唯一对应的命名实体;
基于预设的自适应数据增强的命名实体识别模型,分别识别各所述簇集合中的命名实体。
2.根据权利要求1所述的嵌套命名实体识别方法,其特征在于,所述基于预设的聚类方法,将所述标记集合根据各所述命名实体进行聚类获得簇集合,包括:
预先设定聚类结果度量函数;
基于所述聚类结果度量函数,采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合。
3.根据权利要求2所述的嵌套命名实体识别方法,其特征在于,所述预先设定聚类结果度量函数,包括:
假设语料库为[w1,w2,…,wn],其中wi表示语料库的第i个文本,用Ti表示wi的标记集合,ta表示命名实体a,建立命名实体a对于第i个字符的示性函数如下关系式(1):
命名实体ta与命名实体tb的相关度定义如下关系式(2):
Ea,b=∑所有语料库∑if(ta,i)f(tb,i)(2);
E表示命名实体之间的距离矩阵;
令C表示簇集合,Ci表示第i个簇,Ci的内部距离为Ci内部命名实体之间的距离,计算方式如下关系式(3):
max(Ea,b)表示E中元素的最大值,Ci与Cj之间的距离为两个簇之间的命名实体距离,计算方式如下关系式(4):
基于关系式(3)、关系式(4)以及根据聚类的目标要求,获得所述聚类结果度量函数,如下关系式(5):
gtotal=α(∑i,jgout(Ci,Cj)-∑igin(Ci))-(1-α)|C|/c (5);
|C|表示簇的个数,c表示命名实体的种类的数量常数,α为权重参数。
4.根据权利要求3所述的嵌套命名实体识别方法,其特征在于,所述基于所述聚类结果度量函数,采用层次化聚类方法将所述标记集合根据各所述命名实体进行聚类获得簇集合,包括:
S110、将所述标记集合中每个所述命名实体划分为一个簇;
S120、随机选择两个簇;
S130、合并随机选择的所述两个簇,并判断gtotal是否降低,若是,执行步骤S120,若否,执行步骤S140;
S140、判断连续若干轮迭代的gtotal增量是否小于0或者|C|=1,若是,则停止迭代并返回聚类结果,获得所述簇集合;若否,执行步骤S120。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911291456.7/1.html,转载请声明来源钻瓜专利网。





