[发明专利]品牌名称识别方法、计算机装置及计算机可读存储介质在审
| 申请号: | 201910067589.X | 申请日: | 2019-01-24 |
| 公开(公告)号: | CN109815952A | 公开(公告)日: | 2019-05-28 |
| 发明(设计)人: | 黄幸颖 | 申请(专利权)人: | 珠海市筑巢科技有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06F16/9536 |
| 代理公司: | 珠海智专专利商标代理有限公司 44262 | 代理人: | 林永协 |
| 地址: | 519000 广东省珠海*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 品牌 名称识别 计算机可读存储介质 标签 计算机装置 训练文本 向量 标注 品牌识别 文本 字符串输入 目标标签 人工参与 字符组成 最大概率 概率 预测 | ||
本发明提供一种品牌名称识别方法、计算机装置及计算机可读存储介质,该方法包括设置多个标注标签;获取训练文本,根据所设定的标注标签从训练文本中获取预先设定的品牌名称并进行标注;获取训练文本中每一个字符的表征向量,将多个字符组成的字符串输入BERT模型后获得各个字符的表征向量并计算各个字符的各个标签的概率,使用最大概率的标签作为该字符的目标标签,训练品牌识别模型;获取待识别文本,将待识别文本输入品牌识别模型后获取每一个字符的表征向量,根据待识别文本各个字符的标签计算预测品牌名称。本发明还提供实现上述品牌名称识别方法的计算机装置及计算机可读存储介质。本发明能提高品牌名称识别的准确性,并减少人工参与的程度。
技术领域
本发明涉及计算机的字符识别领域,尤其涉及一种品牌名称识别方法、实现这种方法的计算机装置以及计算机可读存储介质。
背景技术
随着智能电子设备的普及,人们越来越多使用智能电子设备进行沟通,而各种各样的社交软件、信息分享网站成为人们分享自己生活、工作以及各种经历、情绪的平台。随着人们应用各种社交软件、信息分享网站的发展,形成庞大的社交网络,人们可以通过社交网络及时了解好友以及自己关注的名人的信息。
随着社交网络规模的不断扩大,通过对社交网络的文本信息进行分析已成为分析用户需求,揣度用户情绪的主要数据来源。然而,社交网络中用词具有随机性、口语化以及存在大量缩写、简称等原因,对社交网络的文本信息进行分析存在较大的难度。尤其是社交网络用词还存在大量的专有名词,例如品牌的名称等,如果不能有效的对品牌名称进行识别,将给社交网络文本信息分析带来很大的难度。因此,如何准确地识别出社交文本中的品牌名称,成为对社交网络的文本信息进行分析重要的环节。
为此,社交网络的分析员通过多种方式对社交网络中的文本信息包含的品牌名称进行识别,最常见的做法是将品牌名称识别看作是序列的标注问题,解决这一类问题的传统方法是以隐马尔科夫模型(HMM)、条件随机场(CRF)、最大熵隐马尔可夫模型(MEMM)等为代表的基于概率图模型的方法,这三种方法在过去很长一段时间里都取得了不错的效果。但这三种方法的缺点是需要专家知识的参与,人工定义许多特征,无法做到跨领域通用使用。
并且,由于品牌名称具有复杂性和多样性等特点,并且缺乏领域相关的训练语料,往往需要耗费大量的人工成本进行语料进行收集与标注,而社交网络文本的口语化、随意性等特点也给品牌名称的准确识别增加了很大的难度。因此,如何准确识别出社交网络中文本信息的品牌名称成为社交网络文本信息分析的重要研究方向。
发明内容
本发明的主要目的是提供一种能够准确识别出社交网络文本信息中的品牌名称的品牌名称识别方法。
本发明的另一目的是提供一种能够实现上述品牌名称识别方法的计算机装置。
本发明的再一目的是提供一种能够实现上述品牌名称识别方法的计算机可读存储介质。
为了实现上述的主要目的,本发明提供的品牌名称识别方法包括设置一个以上的标注标签;获取训练文本,根据所设定的标注标签从训练文本中获取预先设定的品牌名称并进行标注;获取训练文本中每一个字符的表征向量,将多个字符组成的字符串输入BERT模型后获取各个字符的表征向量并计算各个字符的各个标签的概率,使用最大概率的标签作为该字符的目标标签,训练获得品牌识别模型;获取待识别文本,将待识别文本输入品牌识别模型后获取每一个字符的表征向量,根据待识别文本各个字符的标签计算预测品牌名称。
由上述方案可见,通过获取大量的训练文本并且对字符进行训练获得品牌识别模型,将待识别的文本输入到该品牌识别模型即可以获得预测品牌名称,由于计算预测品牌名称时使用字符的表征向量,使得品牌名称的预测更加准确。
一个优选的方案是,获取预测品牌名称后,还执行:将预测品牌名称作为关键词在搜索引擎中进行搜索,获取搜索结果作为品牌名称集合,获取品牌名称集合中与预测品牌名称编辑距离最小的目标品牌名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海市筑巢科技有限公司,未经珠海市筑巢科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910067589.X/2.html,转载请声明来源钻瓜专利网。





