[发明专利]基于统计模型的Web命名实体识别方法无效
申请号: | 201110284429.4 | 申请日: | 2011-09-22 |
公开(公告)号: | CN102314417A | 公开(公告)日: | 2012-01-11 |
发明(设计)人: | 王静;刘志镜;曲建铭;王燕;贺文华;王炜华;王纵虎;陈东辉;姚勇;朱旭东;赵辉 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于统计模型的Web命名实体识别方法,用结构和文本特征对Web命名实体进行多特征表示;本发明将统计方法和规则方法相结合,采用改进的MR-GHMM来优化训练的效率;用改进隐马尔可夫的模型对实体进行标注,对各命名实体标注,实现实体识别;对Web复杂命名实体识别过程作为二层来处理,将第一层的标注结果作为第二层处理的输入进行复杂嵌套实体识别。本发明与原有识别算法相比,该算法的识别准确率提高了,模型训练的时间复杂度也大幅降低。通过对Web命名实体的多特征表示,针对不同领域的实体特征进行修改,就可以应用与Web上不同领域的命名实体进行识别。 | ||
搜索关键词: | 基于 统计 模型 web 命名 实体 识别 方法 | ||
【主权项】:
一种基于统计模型的Web命名实体识别方法,其特征在于:所述方法包括以下步骤:A.将Web文本原始语料进行分词的预处理,并将原始文本映射到一个抽象符号集上,为之后的机器学习,进行文本的符号化描述做准备;B.对命名实体建立相应的结构特征和文本特征表示,建立命名实体的特征库,使用MFVSM的多特征矢量的特征表示方法,对Web页面的各命名实体进行特征提取;C.应用概率统计算法建立MR‑GHMM模型,利用推广的Baum‑Welch算法计算模型的初始状态概率、转移状态概率和状态释放概率,即解决MR‑GHMM的学习问题;D.结合Web命名实体的多特征,将一种改进的back‑off模型引入GHMM模型的计算中,采用Viterbi算法从所有可能的标注序列中优选出概率最大的标注序列作为最终标注结果,并对各命名实体标注,实现适用于多特征的Web命名实体识别;E.MR‑GHMM模型将Web命名实体识别过程作为二层来处理,第一层进行简单实体标注;第二层进行复杂嵌套实体识别,利用MR‑GHMM对其转移概率计算,将第一层的标注结果作为第二层处理的输入,在第一层识别出来的简单实体基础上进行复杂嵌套实体识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110284429.4/,转载请声明来源钻瓜专利网。