[发明专利]基于统计模型的Web命名实体识别方法无效
申请号: | 201110284429.4 | 申请日: | 2011-09-22 |
公开(公告)号: | CN102314417A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 王静;刘志镜;曲建铭;王燕;贺文华;王炜华;王纵虎;陈东辉;姚勇;朱旭东;赵辉 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 模型 web 命名 实体 识别 方法 | ||
技术领域
本发明属于自然语言处理技术领域,主要涉及Web信息抽取领域,尤其涉及Web命名实体识别。具体是一种基于统计模型的Web命名实体识别方法,主要用来识别出Web命名实体,实现对网页信息的获取以及预处理。
背景技术
Web命名实体识别技术主要针对Web页面的信息进行最基本数据的获取。通过获得数据从而能对网页的内容进行识别,也为后续的各种应用如信息抽取、自动问答、及其翻译等都需要命名实体识别技术的支撑,这也是自然语言处理中一项基本工作。在网络技术飞速发展,并广泛应用于各个领域的当今,对它的研究非常重要。一般来说,命名实体识别就是对一篇或多篇待处理的文本,识别出其中出现的命名实体,比如:人名、地名、机构名、时间日期、数字等。
目前,对英文命名实体识别已经取得了很好的效果,对它的研究与开发主要集中在学习领域,包括隐马尔可夫模型、最大熵模型和支持向量机等,一些系统已经可以实际应用。在第七届信息理解会议(MUC-7)时,最好的英文命名实体识别系统已经达到了95%的查全率和92%的查准率。与英文命名实体识别相比,中文命名实体识别的效果还差很多。第二届多语种实体评价会议(MET-2)时,最好的中文命名实体识别系统在人名、地名、机构名的查准率分别为66、89、89%,查全率分别为92、91、88%。
目前中文命名实体识别从方法上来说,主要是基于规则和统计这两种方法。基于规则的方法一般采用特征字或特征词触发的方式来进行命名实体识别。基于统计的方法主要通过,对大规模语料库命名实体及其上下文进行统计分析,构建统计模型进行命名实体识别。
早期的中文命名实体识别模型包含数个子模型,每个子模型处理某一类实体,如对人名的识别可能使用基于规则的方法,对地名、机构名的识别可能使用基于统计的方法。例如,隐马尔可夫模型、概率上下文无关语法、基于决策树的语言模型、最大熵语言模型、条件随机场模型等。随后就出现了各种改进模型,对不同的实体用统一的模型来处理。
传统识别方法并没有考虑到所识别实体在Web中的一些显示结构特征,这样对于Web实体的特征表示就会不全面。另外一点,传统识别方法对Web命名实体的识别会针对不同实体建立不同模型,这样就无法对那些到底是单独实体还是其他复杂实体的一个成分这种情况进行处理。同时建立多个模型也会大大增加识别的时间复杂度。最后一点,传统方法在训练过程中需要大量文本数据,所以模型过于依赖训练文本集的大小。已有的命名实体识别模型在训练样本上花费的时间太大。
目前中文命名实体的识别中对简单实体识别效果较好,对复杂实体,尤其是对于嵌套的复杂实体,识别效率和准确率较低。
本发明项目组对国内外专利文献和公开发表的期刊论文检索,再尚未发现与本发明密切相关和一样的报道或文献。
发明内容
本发明是一种基于统计模型的命名实体识别方法,主要是对Web文档进行预处理,为后面的信息抽取,机器翻译和问答系统提供了基本保障。本发明主要针对Web上的命名实体利用统计模型进行命名实体识别。本发明要解决的主要问题是现有Web中文命名实体的识别,尤其是对复杂实体的识别精度不够高,不够准的问题,。
下面对本发明进行详细说明
本发明是一种基于统计模型的Web命名实体识别方法,其特征在于:所述方法包括以下步骤:
A.将Web文本原始语料进行分词的预处理,并将原始文本映射到一个抽象符号集上,为之后的机器学习,进行文本的符号化描述做准备;
B.对命名实体建立相应的结构特征和文本特征表示,建立命名实体的特征库,使用MFVSM的多特征矢量的特征表示方法,对Web页面的各命名实体进行特征提取;
C.应用概率统计算法建立MR-GHMM模型,利用推广的Baum-Welch算法计算初始状态概率、转移状态概率和状态释放概率,即解决MR-GHMM的学习问题;
D.结合Web命名实体的多特征,将一种改进的back-off模型引入GHMM模型的计算中,采用Viterbi算法从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果,并对各命名实体标注,实现适用于多特征的Web命名实体识别;
E.MR-GHMM模型将Web命名实体识别过程作为二层来处理,第一层进行简单实体标注;第二层进行复杂嵌套实体识别,利用MR-GHMM对其转移概率计算,将第一层的标注结果作为第二层处理的输入,在第一层识别出来的简单实体基础上进行复杂嵌套实体识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110284429.4/2.html,转载请声明来源钻瓜专利网。