[发明专利]一种基于混合层叠模型的命名实体识别方法有效

专利信息
申请号: 201611205879.9 申请日: 2016-12-23
公开(公告)号: CN106598950B 公开(公告)日: 2019-02-05
发明(设计)人: 贾大宇;王国仁;信俊昌;聂铁铮 申请(专利权)人: 东北大学
主分类号: G06F17/27 分类号: G06F17/27;G06N7/00
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 李运萍
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于混合层叠模型的命名实体识别方法,包括:预处理;利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;构建由知识库和识别规则库构成基础词典;利用基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析二次识别结果的F值,更新基础词典;构建混合层叠模型,对预处理后的待识别语料逐层进行识别,将当前层识别出的识别结果添加到基础词典中供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体。本发明的识别准确率和识别召回率有显著提高。
搜索关键词: 一种 基于 混合 层叠 模型 命名 实体 识别 方法
【主权项】:
1.一种基于混合层叠模型的命名实体识别方法,其特征在于,包括以下步骤:步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;F值是识别准确率和识别召回率的加权调和平均值;步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;步骤4:构建混合层叠模型,包括三层采用自适应的统计识别模型的子模型,分别为人名实体识别模型、地名实体识别模型和机构名实体识别模型,利用混合层叠模型对预处理后的待识别语料逐层进行识别,混合层叠模型的每一层都利用基础词典,采用自适应的统计识别模型进行识别,并且将当前层识别出的识别结果添加到基础词典中,供下一层识别使用,最后得到待识别语料中的人名实体、地名实体和机构名实体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611205879.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top