[发明专利]一种基于半监督学习的关键词到企业的检索方法在审
| 申请号: | 202010683463.8 | 申请日: | 2020-07-15 |
| 公开(公告)号: | CN111881334A | 公开(公告)日: | 2020-11-03 |
| 发明(设计)人: | 陈家银;邱耶;龚小龙;陈曦;麻志毅;彭军民 | 申请(专利权)人: | 浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/9538;G06N3/04;G06N3/08 |
| 代理公司: | 杭州融方专利代理事务所(普通合伙) 33266 | 代理人: | 沈相权 |
| 地址: | 311201 浙江省*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 监督 学习 关键词 企业 检索 方法 | ||
1.一种基于半监督学习的关键词到企业的检索方法,其特征在于按以下步骤进行:
(一)、前期分析:
该方法应用神经网络模型计算关键词与检索返回的候选企业之间的语义相似度,对候选企业进行排序,推荐目标企业;具体来说,该方法使用预训练的ALBERT模型对关键词以及检索返回的候选企业信息分别进行向量编码,并构建匹配模型KC-CNN计算关键词信息与候选企业信息的语义相似度;通过对相似度的排序得到对应的目标企业;使用自训练方法与部分专家知识结合的半监督方式对模型进行迭代训练;下面将从预训练语言模型、半监督匹配两个方面进行阐述;
(二)、预训练语言模型:
使用大量无标注文本对语言模型进行预训练,可以学习到文本中潜在的语义信息,更精确地编码文本;
在不同文本处理任务中,字词的使用方法和使用频率不同,同时存在一些专有名词;例如“瓦楞纸箱”,这是一个在通用语料中较少出现的名词,但在纸包装领域内是一个常用词;针对不同应用任务,在现有语言模型基础上考虑加入领域数据进行训练,可以使得模型更加匹配业务场景;基于此,使用企业简介和经营范围作为训练语料,因为企业的简介和经营范围描述了该企业的主营产品和提供的服务;使用ALBERT作为语言模型;作为最新的语言模型之一,ALBERT在BERT基础上减少了内存使用的同时提升了训练速度,取得了更好的词编码效果;模型预训练的主要步骤为:
(1)文本语料收集:通过企业信息查询系统收集企业的简介和经营范围,整理为文本语料;
(2)文本预处理:对简介和经营范围进行清洗,删除噪声文本,以及与企业描述无关的词句,例如“依法须经批准的项目,经相关部门批准后方可开展经营活动”相关补充说明性文字;
(3)模型训练:ALBERT模型将无标注文本作为输入,通过预训练任务进行模型学习;ALBERT相对于BERT,主要在三方面做了改进:1)词嵌入参数因式分解,ALBERT通过降低词嵌入的维度来减少参数量;2)隐藏层间参数共享,ALBERT中全连接层和注意力层的参数均共享;3)提出新的训练任务,ALBERT提出了“句子间顺序预测”作为新的预测任务,即给定两个句子,预测它们的前后顺序;该任务能够学到更多的句子间语义关系和上下文信息;
通过使用企业信息语料进行预训练,ALBERT模型完成了领域自适应,更加适配品牌与企业匹配的应用场景;
(三)、基于半监督学习的检索方法:
通过关键词检索企业时,需要从多个候选项中选择最佳的匹配结果;为了找到关键词对应的企业,本发明使用文本匹配模型计算关键词与候选企业的语义相似度,最后将相似度最高的企业作为匹配结果;现实应用中,基于深度学习的匹配模型的表现往往优于其他语义匹配方法,因为深度匹配模型可以更有效地利用文本特征和提取匹配项与待匹配项之间的交互信息,学习更丰富的表示;但是深度学习需要大量标注数据,在实际应用中难以得到满足;同时,单一数据源难以确定关键词对应的具体企业,导致匹配不准确;基于少量标注数据构建关键词到具体企业的检索模型,并对两个检索数据源分别进行建模,具体方法为:(1)构建关键词-候选企业匹配模型KC-CNN,并使用初始标注数据对模型进行训练;(2)使用KC-CNN模型对待检索的关键词进行企业关联,其中对商标搜索接口使用B_KC-CNN,对企业搜索接口使用C_KC-CNN,将二者一致的匹配结果作为新的训练数据,缓解标注数据不足的问题;(3)利用专家知识对部分模型输出结果进行人工校正,保证训练数据的准确性;
3.1关键词-候选项匹配模型:
利用少量关键词与候选项的匹配标注数据,使用基于ALBERT和CNN构建的KC-CNN模型对关键词的对应企业进行识别;训练数据由企业关键词和两个检索渠道返回的候选企业组成:给定待检索项q={q1,q2},其中q1表示关键词主特征,q2表示关键词副特征,关键词副特征可以用于解决关键词的歧义问题;企业搜索接口得到的候选企业集合为其中表示单个企业样本;每个样本中,分别表示企业名称、企业简介和经营范围3个特征;类似地,通过商标搜索接口得到的候选企业集合为:其中分别表示每个样本的企业名称、商标名称和商标类别3个特征;对于有标注数据,P1和P2中标签为1的样本为正样本,即该关键词所对应的企业;对于未标注数据,集合中样本标签均设置为0;由于不同渠道得到的候选项的输入特征不同,使用同一算法框架分别构建B_KC-CNN和C_KC-CNN来处理不同的特征输入;考虑一对(关键词,候选企业)输入(q,a),KC-CNN模型首先使用ALBERT模型对输入进行编码,得到输入的上下文表示(mq,ma);之后使用卷积神经网络计算关键词和企业的向量表示(rq,ra),并计算两个向量之间的余弦相似度;最后,通过优化关键词-候选企业对之间的成对排序损失,训练得到KC-CNN模型;
(1)输入文本处理:
KC-CNN接收(关键词,候选企业)对作为输入;对于待检索关键词,将关键词主特征和关键词副特征作为输入文本;对于商标搜索途径的候选企业,将商标名称、商标类别以及企业简称作为输入文本,其中企业简称通过删除企业名称中的地名前缀和公司类型后缀得到;对于企业搜索途径的候选企业,将企业简称,以及企业简介和经营范围的前20个字作为输入文本;
(2)特征编码:
KC-CNN使用预训练ALBERT语言模型作为编码器,对输入文本中的每一个Token产生一个上下文表示,拼接后得到输入文本的特征编码矩阵;使用mq=[e1,e2,...,eM]∈RM×d表示待检索关键词的编码矩阵,ma=[e1,e2,...,eN]∈RN×d表示候选企业的编码矩阵;其中M和N分别为输入中的Token个数,本发明中M设置为10、N设置为50;d为预训练词向量维度,ALBERT将其设置为128维;
(3)卷积和池化:
选取不同窗口大小的卷积核,对特征矩阵进行卷积操作:
ci=g(vTei:(i+h-1)),
其中g代表卷积运算;v∈Rh×d,其中h一般取2和3,表示不同的窗口大小,用于抽取不同层次的N-gram信息;使用多个卷积核对特征进行卷积,每个卷积核输出一个卷积序列,即一般核数量取n=50;之后对每一个卷积序列采用最大池化进行特征选取,输出该序列中的最大值;并使用非线性函数tanh对所有卷积序列池化的结果进行规范化,得到输入特征的向量表示:
其中r每一维的取值范围为[-1,1];
(4)计算匹配相似度:
得到输入的向量表示(rq,ra)后,KC-CNN计算向量之间的余弦相似度作为其匹配相似度:
(5)损失函数:
KC-CNN通过优化成对排序损失函数对模型进行训练;每一轮得到两对(关键词,候选企业)的匹配相似度,计算二者之间的排序损失;具体来说,对两对输入(q,a+)和(q,a-),其中a+表示待检索关键词的对应企业,a-表示候选企业中任意一个不正确匹配的企业,使用铰链损失定义成对损失函数:
L=max{O,t-s(q,a+)+s(q,a-)}
其中t为一个自定义常数,表示正确匹配和错误匹配之间的间隔,本方法中取值为0.5;通过优化成对排序损失函数,KC-CNN倾向于对关键词与关联企业的匹配打分高,对非关联企业的匹配结果打分低;
3.2自训练迭代学习:
由于现实应用中数据标注的人力成本过高,无法使用足量标注数据对模型进行学习;针对此问题,使用基于半监督的自训练方法训练模型;通过标注少量数据,首先按3.1节的内容构建初始KC-CNN模型;接着利用大量无标注数据,使用自训练方法对模型进行迭代学习后,得到最终模型。具体步骤为:
(1)从未标注数据中随机选取Q个待检索关键词以及其对应的无标签候选企业列表;在本发明中Q取50;
(2)对于每个待检索关键词,使用B_KC-CNN模型在商标搜索接口的候选企业列表中进行匹配检索,使用C_KC-CNN模型在企业搜索接口的候选企业列表中进行匹配检索,分别得到检索结果;
(3)若二者检索结果一致,将该企业标注为正例,其他候选企业标注为负例,加入到标注数据集中;若二者匹配结果不一致,利用专家知识进行人工校正,选择正确的结果作为正例放入到标注数据集;
(4)使用扩增的标注数据集作为训练集,更新KC-CNN模型;
重复步骤(1)~(4),直到未标注数据集合为空;自训练方法可以缓解标注数据不足的问题,大大降低人工成本;但是由于初始模型性能不足,单纯的自训练方法会导致将错误标注的数据加入到训练集中,对模型训练产生错误指导;通过对比两个检索结果并进行人工校正,可以保证标注数据的准确性,提高匹配模型的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司,未经浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010683463.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑用设备便捷式除尘装置
- 下一篇:一种抗震防落梁结构





