[发明专利]一种改进知识迁移的实体识别方法在审

申请号：	201911374613.0	申请日：	2019-12-27
公开（公告）号：	CN111144119A	公开（公告）日：	2020-05-12
发明（设计）人：	赵平;孙连英;涂帅;王金峰	申请（专利权）人：	北京联合大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/216;G06F16/35;G06Q50/14
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	吴荫芳
地址：	100101 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种改进知识迁移实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种改进知识迁移的实体识别方法，其特征在于：

步骤一：利用辅助领域训练集使用BERT+BiLSTM+CRF方法训练中文命名实体识别模型，中文命名实体识别模型包括BERT模型、BiILSTM、CRF层，具体为：训练集经过BERT模型得到文本字向量，然后通过BiILSTM深度学习上下文特征信息，进行命名实体识别，最后使用CRF层对BiLSTM的输出序列处理；

步骤二：用辅助领域训练集训练word2Vec模型，训练完成后的word2Vec模型称为辅助领域词向量化模型，用目标领域训练集训练word2Vec模型，训练完成后的word2Vec模型称为目标领域词向量化模型；

步骤三：对每一个辅助领域样本，计算词语重要程度，并将词语重要程度根据由大到小的顺序排列，前m个词语为辅助领域关键词对每一个目标领域样本，计算词语重要程度，并将词语重要程度根据由大到小的顺序排列，前m个词语为目标领域关键词

步骤四：计算步骤三获取的辅助领域关键词与目标领域关键词的相似性，设置相似度阈值；

步骤五：计算辅助领域句子与目标领域句子的相似性，设置句子级别相似度阈值；

步骤六：计算辅助领域样本可扩展能力，设置可扩展能力阈值；

步骤七：用扩展后的目标领域样本使用步骤一的BERT+BiLSTM+CRF方法训练景点实体识别分类器，其中景点实体识别分类器和中文命名实体识别模型结构相同。

2.如权利要求1所述改进知识迁移的景点实体识别模型，其特征是：所述步骤一中的中文命名实体识别模型如下：

(1-1)辅助领域训练集为从人民日报收集的标注了人名、地名、机构名的文本集，将辅助领域训练集输入到BERT模型中，BERT模型输出文本字向量；

(1-2)将步骤(1-1)中的文本字向量输入BiILSTM，提取上下文信息；

(1-3)用CRF层对BiLSTM的输出序列处理得到预测的不同类实体标签的分数值；

其中，模型采用最优化方法最大似然估计损失函数，标签为命名实体识别标注BIO标注模式。

3.如权利要求1所述改进知识迁移的景点实体识别模型，其特征是，步骤二中，