[发明专利]一种基于半监督学习的关键词到企业的检索方法在审

专利信息
申请号: 202010683463.8 申请日: 2020-07-15
公开(公告)号: CN111881334A 公开(公告)日: 2020-11-03
发明(设计)人: 陈家银;邱耶;龚小龙;陈曦;麻志毅;彭军民 申请(专利权)人: 浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9535;G06F16/9538;G06N3/04;G06N3/08
代理公司: 杭州融方专利代理事务所(普通合伙) 33266 代理人: 沈相权
地址: 311201 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 监督 学习 关键词 企业 检索 方法
【说明书】:

发明涉及一种检索方法,尤其涉及一种基于半监督学习的关键词到企业的检索方法,属于应用于信息检索领域。自训练方法首先使用初始标注数据训练模型,然后使用模型对部分无标注数据进行识别并将其加入到标注数据集中,作为新的训练数据;通过多轮次的自动数据标注和迭代训练学习,得到最终的模型。半监督学习方法可以大大降低人工标注成本,提高检索匹配效率。

技术领域

本发明涉及一种检索方法,尤其涉及一种基于半监督学习的关键词到企业 的检索方法,属于应用于信息检索领域。

背景技术

通过关键词检索企业是指利用企业品牌、产品或工厂的关键词检索出该部 分信息背后对应的具体企业,有利于市场人员进行精准营销。例如市场人员希 望找到医疗器械行业品牌“迈德斯特”背后企业。由于不同的企业在企业名称、 企业商标、经营范围等文本内容上存在相同的关键词信息,导致关键词信息在 不同数据源检索会返回大量具有歧义内容的企业。例如对于品牌关键词“迈德 斯特”,商标注册信息检索结果,返回的企业列表为{“衡水慧东商贸有限公 司”,“衡水科谷电子科技有限公司”,“河北瑞朗德医疗器械科技集团有限 公司”,…},共有62条检索结果;企业工商信息检索结果所示,返回的企业 列表为{“河北迈德斯特医药有限公司”,“衡水恒泽康医疗器械有限公司”, “河北瑞朗德医疗器械科技集团有限公司”,…},共有17条检索结果。通过 该例子可以看出,利用单搜索源难以确定关键词对应的具体企业。针对此问题, 本发明主要基于商标搜索接口和企业搜索接口两个数据源得到候选企业列表, 应用深度学习技术,提出一种使用少量标注数据的半监督学习方法构建企业信 息检索模型,实现面向关键词的企业智能检索引擎。

基本思路:首先分别对输入和候选检索项进行向量编码表示,然后计算输 入与候选项之间的语义相似度,取相似度最高的一项作为匹配结果。词向量编 码是指将词映射为一个密集、低维的实值向量,基于词向量可以更好地捕获词 语之间的语义关系,提升文本处理任务的性能。近年来,BERT算法超越了之 前的语言表示学习算法,可以学习到更准确的文本表示。相比word2vec等方 法,BERT更好地考虑了上下文信息,缓解了一词多义的问题。ALBERT模型是 基于BERT算法的最新改进成果之一,减少了内存使用的同时提升了训练速度。 卷积神经网络(CNN)是常用的编码器,通过卷积操作和池化操作来学习输入的 表示。卷积操作可以增强局部信息的利用,池化操作可以学习更高层的表示。

传统有监督方法需要提供大量的人工标注训练数据,人力成本太高。针对 此问题,本发明使用基于半监督学习的检索方法。半监督学习指同时利用少量 标注数据和大量无标注数据来训练模型的一类算法,其中自训练方法是常用的 半监督算法之一。自训练方法首先使用初始标注数据训练模型,然后使用模型 对部分无标注数据进行识别并将其加入到标注数据集中,作为新的训练数据; 通过多轮次的自动数据标注和迭代训练学习,得到最终的模型。半监督学习只 需要借助少量的标注数据来完成模型的迭代训练,可以有效缓解标注数据不足 的问题,大大降低人工成本。

发明内容

本发明主要是解决现有技术中存在的不足,解决一种在市场拓展过程中, 市场人员往往最先获知的不是企业客户全称,而是企业品牌、产品或工厂的关 键词,然而仅知道这些关键词信息,人工很难快速通过互联网等平台检索出该 信息背后对应的具体企业。原因是很多企业在工商信息注册时所填写的企业名 称、企业商标、经营范围等文本内容上存在大量的相同关键词信息,导致关键 词信息检索无法准确捕捉用户语义需求,召回结果中出现大量的具有歧义内容 的企业。针对上述问题,提出一种基于半监督学习的关键词到企业的检索方法, 该方法核心是通过多源数据挖掘不同渠道下关键词对应的企业信息,通过半监 督学习方法对检索返回的候选企业按相关性进行排序,推荐目标企业。

本发明的上述技术问题主要是通过下述技术方案得以解决的:

一种基于半监督学习的关键词到企业的检索方法,按以下步骤进行:

(一)、前期分析:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司,未经浙江大胜达包装股份有限公司;浙江省北大信息技术高等研究院;杭州未名信科科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010683463.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top