[发明专利]一种基于LSTM的命名实体识别方法在审

申请号：	201710946714.5	申请日：	2017-10-12
公开（公告）号：	CN107885721A	公开（公告）日：	2018-04-06
发明（设计）人：	岳永鹏;唐华阳	申请（专利权）人：	北京知道未来信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	邱晓锋
地址：	100102 北京市朝阳区阜***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lstm 命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于信息技术领域，具体涉及一种基于LSTM的命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition，简称NER)是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别方法的实践场景包括：

场景1：事件检测。地点、时间、人物是时间的几个基本构成部分，在构建事件的摘要时，可以突出相关人物、地点、单位等。在事件搜索系统中，相关的人物、时间、地点可以作为索引关键词。事件的几个构成部分之间的关系，从语义层面更详细的描述了事件。

场景2：信息检索。命名实体可以用来提高和改进检索系统的效果，当用户输入“重大”时，可以发现用户更想检索的是“重庆大学”，而不是其对应的形容词含义。此外，在建立倒排索引的时候，如果把命名实体切成多个单词，将会导致查询效率降低。此外，搜索引擎正在向语义理解、计算答案的方向发展。

场景3：语义网络。语义网络中一般包括概念和实例及其对应的关系，例如“国家”是一个概念，中国是一个实例，“中国”是一个“国家”表达实体与概念之间的关系。语义网络中的实例有很大一部分是命名实体。

场景4：机器翻译。命名实体的翻译常会有一些特殊翻译规则，例如中国人民翻译成英文时要使用名字的拼音来表示，有名在前姓在后的规则，而普通的词语要翻译成对应的英文单词。准确识别出文本中的命名实体，对提高机器翻译的效果有重要的意义。

场景5：问答系统。准确的识别出问题的各个组成部分特别重要，问题的相关领域，相关概念。目前，大部分问答系统都只能搜索答案，而不能计算答案。搜索答案进行关键词的匹配，用户根据搜索结果人工提取答案，而更加友好的方式是把答案计算好呈现给用户。问答系统中有一部分问题需要考虑到实体之间的关系，例如“美国第四十五届总统”，目前的搜索引擎会以特殊的格式返回答案“特朗普”。

传统的命名实体识别方法可以分为基于词典的命名实体识别方法、基于词频统计的方法以及基于人工神经网络模型的方法。基于词典的命名实体识别方法，其原理是将尽量多的不同类别的实体词汇收入词典中，识别时将文本信息与词典中的词语进行匹配，匹配上的则标记为对应的实体类别。基于词频统计的方法，例如CRF(条件随机场)，其原理是学习到前后一个词的语义信息，然后做出分类判断。

基于词典的命名实体识别严重依赖于词典库，不能够识别未登录词。基于词频统计的HMM(隐马尔可夫)和CRF(条件随机场)方法其只能关联后一个词与前一个词的语义，识别精度不够高，尤其是未登录词的识别率较低。基于人工神经网络模型的方法，在训练时存在梯度消失问题，并且在实际的应用中网络层数少，最终命名实体识别结果优势不明显。

发明内容

本发明针对上述问题，提供一种基于LSTM(Long Short-Term Memory，长短期记忆神经网络)的命名实体识别方法，能够有效提高命名实体识别的精度。

本发明中，登录词指的是已经出现在语料词表中的词，未登录词指的是没有出现在语料词表中的词。

本发明采用的技术方案如下：

一种基于LSTM的命名实体识别方法，包括以下步骤：

1)对命名实体识别的训练语料进行标注，形成标注语料；

2)将标注语料中的词和字符转化为向量；

3)利用词和字符的向量建立基于LSTM的命名实体识别模型，并训练该命名实体识别模型的参数；

4)利用训练好的命名实体识别模型，对待预测的数据进行命名实体识别预测。

进一步地，步骤1)按照IOBES的方式对训练语料进行标注。

进一步地，步骤2)首先将输入的词转化为向量，然后将词中的每一个字符进行了拆解，用LSTM模型将词所包含的所有字符转化为向量，并对词和字符转化的向量进行拼接。

进一步地，步骤3)采用Adam梯度下降算法训练命名实体识别模型的参数。