[发明专利]一种基于神经网络概率消歧的网络文本命名实体识别方法有效
申请号: | 201710390409.2 | 申请日: | 2017-05-27 |
公开(公告)号: | CN107203511B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 周勇;刘兵;韩兆宇;王重秋 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 221116 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 概率 网络 文本 命名 实体 识别 方法 | ||
本发明公开了一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵;将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。本发明根据其存在网络词汇、新生词汇的特性,提供了一种不改变神经网络结构的词向量增量学习方法,为应对网络文本中语法结构不规范、错别字多的问题,采用了概率消歧的方法。因此本发明的方法在网络文本命名实体识别任务中可产生较高的准确率。
技术领域
本发明涉及网络文本的处理及分析,尤其涉及一种基于神经网络概率消歧的网络文本命名实体识别的方法。
背景技术
网络使得信息的采集、传播的速度和规模达到空前的水平,实现了全球的信息共享与交互,它已经成为信息社会必不可少的基础设施。现代通信和传播技术,大大提高了信息传播的速度和广度。但与之俱来的问题和“副作用”是:汹涌而来的信息有时使人无所适从,从浩如烟海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难。如何从海量的网络文本中分析出互联网用户所关注的人物、地点、机构等命名实体,成为网上营销、群体情感分析等各种上层应用提供重要的支持信息。这使得面向网络文本的命名实体识别成为网络数据处理与分析中的一项重要的核心技术。
人们处理命名实体识别的方法研究主要分为两类,基于规则的方法(rule-based)和基于统计的方法(statistic-based)。随着机器学习理论的不断完善和计算性能的极大提高,基于统计学的方法更加受到人们青睐。
目前,命名实体识别应用的统计模型方法主要包括:隐马尔可夫模型、决策树、最大熵模型、支持向量机、条件随机场以及人工神经网络。人工神经网络在命名实体识别方面可以的到比条件随机场、最大熵模型等模型取得更好的结果,但实用仍以条件随机场、最大熵模型为主,如专利号CN201310182978.X使用条件随机场并结合命名实体库提出了对微博文本的命名实体识别方法及装置、专利号CN200710098635.X提出了一种利用字特征使用最大熵模型建模的命名实体识别方法。人工神经网络难以实用的原因在于人工神经网络在命名实体识别领域常需要将词转化成词向量空间中的向量,因此对于新生词汇无法得到对应的向量,所以无法得到大规模的实际应用。
基于上述现状,针对网络文本的命名实体识别主要存在以下问题:第一,网络文本因存在大量网络词汇、新生词汇、错别字,无法训练出包含所有词的词向量空间以训练神经网络。第二,网络文本存在的语言形式任意、语法结构不规范、错别字多等现象导致其命名实体识别准确率下降。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种增量提取词特征而不需要重新训练神经网络、同时概率消歧识别的基于神经网络概率消歧的网络文本命名实体识别方法,该方法通过训练神经网络,获取神经网络对词语所属命名实体类型的预测概率矩阵,对神经网络输出的预测矩阵再以概率模型进行消歧,提高了网络文本命名实体识别的准确性和准确率。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于神经网络概率消歧的网络文本命名实体识别方法,将无标签语料分词,利用Word2Vec提取词向量,将样本语料转换成词特征矩阵并窗口化,构建深度神经网络进行训练,在神经网络的输出层加入softmax函数做归一化处理,得到每个词对应命名实体类别的概率矩阵。将概率矩阵重新窗口化,利用条件随机场模型进行消歧,得到最后的命名实体标注。
具体包括以下步骤:
步骤1,通过网页爬虫获取无标签语料,从语料库获取有命名实体标注的样本语料,利用自然语言工具对无标签语料进行分词。
步骤2,对已分词好的无标签语料和样本语料通过Word2Vec工具进行词向量空间的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710390409.2/2.html,转载请声明来源钻瓜专利网。