[发明专利]多策略融合的命名实体的识别方法及装置有效
申请号: | 201710447439.2 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107330011B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 赵红红;王萌萌;晋耀红;蒋宏飞;杨凯程;董铭慆 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 策略 融合 命名 实体 识别 方法 装置 | ||
1.一种多策略融合的命名实体的识别方法,其特征在于,包括:
获取语料;
利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
融合所述第一识别结果与所述第二识别结果,得到第三识别结果;
所述利用第二识别模型识别所述语料中的命名实体,得到第二识别结果的步骤包括:
利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数;
所述至少两种识别模型包括分词模型和命名实体识别模型,其中,所述分词模型包括nGram分词模型、HMM分词模型、带有新词发现功能的分词模型,所述命名实体模型包括基于最大熵的命名实体识别模型、基于结构化感知器的命名实体识别模型;
所述融合所述第一识别结果与所述第二识别结果,得到第三识别结果的步骤包括:
判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果;
所述融合是指在第一识别结果的基础上增加第二识别结果中新增的命名实体;
所述融合条件为第二识别结果中存在在第一识别结果基础上新增的命名实体;
在得到第三识别结果后还包括:
利用语义挖掘系统对所述第三识别结果进行角色分配,生成具有角色的命名实体,其中,
所述角色分配为利用语义挖掘系统,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体;
所述语义挖掘系统包括正则表达式和文本。
2.根据权利要求1所述的识别方法,其特征在于,
所述第一识别模型为条件随机场模型;
在所述利用第一识别模型识别语料中的命名实体,得到第一识别结果的步骤之前,还包括:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练,得到所述第一识别模型。
3.一种多策略融合的命名实体识别装置,其特征在于,所述命名实体识别装置包括,
语料获取单元,用于获取语料;
第一识别单元,用于利用第一识别模型识别所述语料中的命名实体,得到第一识别结果;
第二识别单元,用于利用第二识别模型识别所述语料中的命名实体,得到第二识别结果;
识别结果融合单元,用于融合所述第一识别结果与所述第二识别结果,得到第三识别结果;
所述第二识别单元包括以下子单元:
多策略识别单元,用于利用至少两种识别模型识别所述语料中的命名实体,每种识别模型分别得到一个子识别结果,生成子识别结果列表;
识别结果输出单元,用于判断所述子识别结果列表中的识别结果是否满足输出条件,若满足则输出第二识别结果;
所述输出条件为在所述子识别结果列表中,相同命名实体的个数达到预设值,其中,所述预设值为所述至少两种识别模型的众数;
所述至少两种识别模型包括分词模型和命名实体识别模型,其中,所述分词模型包括nGram分词模型、HMM分词模型、带有新词发现功能的分词模型,所述命名实体模型包括基于最大熵的命名实体识别模型、基于结构化感知器的命名实体识别模型;
所述识别结果融合单元,用于判断所述第一识别结果与所述第二识别结果是否满足融合条件,若满足则融合,并输出融合后的结果,即,第三识别结果;
所述融合是指在第一识别结果的基础上增加第二识别结果中新增的命名实体;
所述融合条件为第二识别结果中存在在第一识别结果基础上新增的命名实体;
所述命名实体识别装置还包括角色分配单元,用于利用语义挖掘系统对所述第三识别结果进行角色分配,生成具有角色的命名实体,其中,
所述角色分配单元用于利用语义挖掘系统,对所述第三识别结果中命名实体分别进行角色标记,并分别输出具有角色的命名实体;
所述语义挖掘系统包括正则表达式和文本。
4.根据权利要求3所述的识别装置,其特征在于,
所述第一识别模型为条件随机场模型;
在所述第一识别单元还包括模型训练单元,所述模型训练单元用于:
建立语料库;
对所述语料库中的语料进行词性标注和序列标注;
将标注后的语料作为训练数据,使用CRF工具包进行训练从而得到所述第一识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司,未经北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710447439.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种氧化锡粒度测试方法
- 下一篇:一种电动式自行车打气装置