[发明专利]一种改进知识迁移的实体识别方法在审
申请号: | 201911374613.0 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111144119A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 赵平;孙连英;涂帅;王金峰 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F16/35;G06Q50/14 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 知识 迁移 实体 识别 方法 | ||
1.一种改进知识迁移的实体识别方法,其特征在于:
步骤一:利用辅助领域训练集使用BERT+BiLSTM+CRF方法训练中文命名实体识别模型,中文命名实体识别模型包括BERT模型、BiILSTM、CRF层,具体为:训练集经过BERT模型得到文本字向量,然后通过BiILSTM深度学习上下文特征信息,进行命名实体识别,最后使用CRF层对BiLSTM的输出序列处理;
步骤二:用辅助领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为辅助领域词向量化模型,用目标领域训练集训练word2Vec模型,训练完成后的word2Vec模型称为目标领域词向量化模型;
步骤三:对每一个辅助领域样本,计算词语重要程度,并将词语重要程度根据由大到小的顺序排列,前m个词语为辅助领域关键词对每一个目标领域样本,计算词语重要程度,并将词语重要程度根据由大到小的顺序排列,前m个词语为目标领域关键词
步骤四:计算步骤三获取的辅助领域关键词与目标领域关键词的相似性,设置相似度阈值;
步骤五:计算辅助领域句子与目标领域句子的相似性,设置句子级别相似度阈值;
步骤六:计算辅助领域样本可扩展能力,设置可扩展能力阈值;
步骤七:用扩展后的目标领域样本使用步骤一的BERT+BiLSTM+CRF方法训练景点实体识别分类器,其中景点实体识别分类器和中文命名实体识别模型结构相同。
2.如权利要求1所述改进知识迁移的景点实体识别模型,其特征是:所述步骤一中的中文命名实体识别模型如下:
(1-1)辅助领域训练集为从人民日报收集的标注了人名、地名、机构名的文本集,将辅助领域训练集输入到BERT模型中,BERT模型输出文本字向量;
(1-2)将步骤(1-1)中的文本字向量输入BiILSTM,提取上下文信息;
(1-3)用CRF层对BiLSTM的输出序列处理得到预测的不同类实体标签的分数值;
其中,模型采用最优化方法最大似然估计损失函数,标签为命名实体识别标注BIO标注模式。
3.如权利要求1所述改进知识迁移的景点实体识别模型,其特征是,步骤二中,
所述的目标领域样本集为人工爬取的旅游网站上的游记;
进一步对辅助领域样本集用jieba分词方法分词得到辅助领域分词文本,用目标领域样本集使用jieba分词方法分词得到目标领域分词文本;
进一步包括加载停用词和用户自定义词典,其中用户自定义词典由词语构成,包括不想被分词器分开的词语。
4.如权利要求1所述改进知识迁移的景点实体识别模型,其特征是,所述步骤三中辅助领域词语重要程度具体计算步骤如下:
(3-1)计算辅助领域样本句子中的词频率,其中,第i个词在句子j中的出现频率KFi,j由下式得到:
式中,ni,j表示第i个词在句子j中出现的次数;
(3-2)为辅助领域样本计算样本反句子频率ISF,其中词语i的反句子频率ISFi由下式得到;
其中:|S|表示辅助领域样本集中句子的总数量,|j:ti∈Sj|表示ti∈Sj出现次数,ti表示句子中词语,Sj表示第j个句子;
(3-3)计算辅助领域样本中词语在句子中的重要程度,其中,词语i在句子j中的重要程度I(i,j)由下式计算:
I(i,j)=KFi,j*ISFi。
5.如权利要求4所述改进知识迁移的景点实体识别模型,其特征是,所述步骤三中目标领域关键词的计算方法与辅助领域关键词的计算方法相同,唯一区别在于涉及的数据均为目标领域训练集中的样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911374613.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于低温自蔓延燃烧原理的粉体合成炉及合成方法
- 下一篇:双缸单进料液压活塞泵