[发明专利]一种文本品牌识别方法、识别装置和存储介质有效
| 申请号: | 201910011497.X | 申请日: | 2019-01-07 |
| 公开(公告)号: | CN109766550B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 翁永金;李百川;陈第 | 申请(专利权)人: | 有米科技股份有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
| 地址: | 510006 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 品牌 识别 方法 装置 存储 介质 | ||
本发明提供了一种文本品牌识别方法、识别装置和存储介质,该方法包括:获取待识别的文本,并对文本进行预处理得到文本的品牌候选词根;获取预构建的品牌库中的品牌名和品牌描述信息,并对品牌描述信息进行预处理得到品牌描述特征词汇;获取品牌候选词根在文本中的上下文特征词汇;基于上下文特征词汇和品牌描述特征词汇计算品牌候选词根与品牌名之间的语义相似度,并选取语义相似度符合第一指定规则的品牌名作为文本的目标品牌名。基于本发明,可以在无监督的场景下,利用语义相似度确定文本的目标品牌名,这在一定程度上可以解决一词多义的问题,有助于文本品牌的自动识别。
技术领域
本发明涉及互联网与计算机技术领域,更具体地说,涉及一种文本品牌识别方法、识别装置和存储介质。
背景技术
随着互联网技术的发展,互联网广告已经成为许多公司盈利的重要手段。对于广告主和相关运营人员而言,希望看到同行业其他竞品的广告投放相关情况,然而许多广告实际上并没有写明品牌名。
现阶段只能通过广告文本的品牌识别实现广告与品牌名的对应。然而,现实中存在大量一词多义的品牌名,如“苹果手机”和“苹果好吃吗”中的“苹果”分别指一种手机和一种水果,前者可认为是品牌,后者则不行。在现有技术中所采用的词库匹配方法,则无法解决一词多义的问题。
发明内容
有鉴于此,为解决上述问题,本发明提供一种文本品牌识别方法、识别装置和存储介质。技术方案如下:
一种文本品牌识别方法,所述方法包括:
获取待识别的文本,并对所述文本进行预处理得到所述文本的品牌候选词根;
获取预构建的品牌库中的品牌名和品牌描述信息,并对所述品牌描述信息进行预处理得到品牌描述特征词汇;
获取所述品牌候选词根在所述文本中的上下文特征词汇;
基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度,并选取语义相似度符合第一指定规则的所述品牌名作为所述文本的目标品牌名。
优选的,所述对所述文本进行预处理得到所述文本的品牌候选词根,包括:
对所述文本进行分词得到所述文本的文本特征词汇;
对所述文本特征词汇进行词性标注;
至少基于所述文本特征词汇所标注的词性对所述文本特征词汇做筛选处理得到品牌候选词根。
优选的,所述基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度,包括:
分别计算所述上下文特征词汇的特征向量以及所述品牌描述特征词汇的特征向量;
利用所述上下文特征词汇的特征向量和所述品牌描述特征词汇的特征向量计算所述品牌候选词根与所述品牌名之间的语义相似度。
优选的,所述基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度之前,所述方法还包括:
针对所述品牌候选词根,通过模糊匹配所述品牌库从所述品牌名中选取候选品牌名。
优选的,所述基于所述上下文特征词汇和所述品牌描述特征词汇计算所述品牌候选词根与所述品牌名之间的语义相似度之前,所述方法还包括:
计算所述品牌候选词根与所述候选品牌名之间的编辑距离;
选取编辑距离符合第二指定规则的所述候选品牌名。
一种文本品牌识别装置,所述装置包括:
第一预处理模块,用于获取待识别的文本,并对所述文本进行预处理得到所述文本的品牌候选词根;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于有米科技股份有限公司,未经有米科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910011497.X/2.html,转载请声明来源钻瓜专利网。





