[发明专利]一种改进知识迁移的实体识别方法在审
申请号: | 201911374613.0 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111144119A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 赵平;孙连英;涂帅;王金峰 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F16/35;G06Q50/14 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 知识 迁移 实体 识别 方法 | ||
本发明涉及一种景点实体识别方法,利用知识迁移的思想解决了旅游领域标注数据难获取的问题,同时解决了利用深度学习方法识别景点中严重依赖标注数据以及标注数据质量问题,此外用融合语言模型的BERT+BiLSTM+CRF方法解决了中文命名实体识别特征表示的一词多义问题。本发明借助已有的辅助领域样本的标注数据,根据关键词,句子,可扩展能力三个级别的评估,利用评估结果扩展目标领域训练集。经过实验证明,本发明仅取1/4的标注数据,就可以获得比较显著的识别效果。此外,在无需进行大量的人工数据标注的前提下,借助已有的辅助领域样本的标注数据进行扩展,在不影响识别效率的前提下,减少了人工标注数据所花费的时间和精力。
技术领域
本发明涉及一种景点实体识别方法,尤其涉及一种改进知识迁移的景点实体识别模型。
背景技术
在对类似旅游游记这种海量非结构化文本进行高效信息管理和数据挖掘对旅游领域问答系统、舆情分析、个性化推荐等研究具有重要的意义,而对景点的实体识别精确率直接影响对旅游领域的信息抽取。
针对旅游景点的识别,目前主要有以下几类:基于机器学习(隐马尔可夫模型和条件随机场)和基于深度学习(卷积神经网络)的方法。隐马尔可夫模型识别景点是一个双重随机过程,该方法未能考虑到上下文之间的语义信息,且在对文本提取特征的过程中未能解决文本特征表示的一词多义问题,旅游领域景点词语一般会存在不同语境下不同含义,比如“黄山”在不同语境下可以指安徽省黄山市,属于地名,也可以指旅游景区“黄山”等,继而景点实体识别效率一般。基于条件随机场方法主要依赖人工构建特征模板,对于旅游领域,景点实体数量过多,无法一一列举,且在人工构建特征模板的时候耗时耗力,未能考虑到上下文语境和语义的信息。基于卷积神经网络的方法,对景点识别效率较高,但是需要大量的人工标注语料,且识别结果严重依赖语料标注质量,此外人工标注耗费巨大精力,自动化标注的训练集语料质量直接影响识别效率。所以针对旅游景点识别目前最大的问题就是:1)对于旅游景点重名,景点词语在不同语境下的不同含义问题,在文本特征表示的时候得不到解决;2)对于特定的旅游领域,景点实体数量过多,无法一一列举,且在人工构建特征模板的时候耗时耗力,使用机器学习算法进行学习需要人工标注数据,且模型严重依赖标注数据的质量,标注数据难获取的问题等;
发明内容
本发明的目的就是为了解决上述问题,提供了一种改进知识迁移的景点实体识别模型。辅助领域文本为规范标注化的数据,所以迁移的难点在于如何评估辅助领域到目标领域的相似性,保证特征提取和知识迁移的过程中,将辅助领域中尽可能多的关于目标领域的语义信息扩展但不产生负迁移。
对此,本文针对旅游领域文本特点,提出了关键词重要性,样本可扩展性两种不同的计算方式来评估一个样本的好坏。设计了三种不同程度的相似度来评估辅助领域与目标领域的相似度。它具有利用辅助领域扩展目标领域训练集的优点,能够准确有效识别景点。
为了实现上述目的,本发明采用如下技术方案:
一种改进知识迁移的景点实体识别模型,具体步骤为:
步骤一:利用辅助领域训练集使用BERT+BiLSTM+CRF方法训练中文命名实体识别模型,中文命名实体识别模型包括BERT模型、BiILSTM、CRF层,具体为:训练集经过BERT模型得到文本字向量,然后通过BiILSTM深度学习上下文特征信息,进行命名实体识别,最后使用CRF层对BiLSTM的输出序列处理。
步骤二:用辅助领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为辅助领域词向量化模型,用目标领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为目标领域词向量化模型;
步骤三:对辅助领域训练集中的每一个样本,计算词语重要性,并将词语重要性根据由大到小的顺序排列,前m个词语为辅助领域关键词;对目标领域训练集中的每一个样本,计算词语重要性,并将词语重要性根据由大到小的顺序排列,前m个词语为目标领域关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911374613.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于低温自蔓延燃烧原理的粉体合成炉及合成方法
- 下一篇:双缸单进料液压活塞泵