[发明专利]搜索词匹配方法、装置、电子设备及可读存储介质在审
申请号: | 202010134331.X | 申请日: | 2020-02-29 |
公开(公告)号: | CN111414452A | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 刘静;张然;谭贤 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/289 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索词 匹配 方法 装置 电子设备 可读 存储 介质 | ||
本发明涉及一种人工智能技术,揭露了一种搜索词匹配方法,包括:对原始搜索词进行分词操作及添加属性标签得到标签搜索词,计算所述标签搜索词在预构建的搜索词数据库中的搜索频率,根据所述标签搜索词的属性标签计算所述标签搜索词的属性权重,将所述标签搜索词进行词向量转化得到标签搜索词向量,根据所述搜索频率及所述属性权重,计算所述标签搜索词向量与所述搜索词数据库内每个搜索词向量的相似度得到相似度集,根据所述相似度集,从所述搜索词数据库中选择满足预设相似度条件的搜索结果。本发明还提出一种搜索词匹配装置、电子设备以及一种计算机可读存储介质。本发明可以实现更准确的搜索词匹配方法。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种搜索词匹配的方法、装置、电子设备及可读存储介质。
背景技术
随着大数据的应用和发展,如何通过搜索词从庞大的数据中匹配到相似且准确的数据具有广阔应用前景。例如,用户在填写发票信息时,需要在发票系统中填入公司名称以及税号,在用户填写公司名称的过程中,发票系统会以用户输入的字词作为关键字,自动搜索并弹出最近似的公司名称供用户选择为用户提供方便,也能一定程度的避免用户填写错误的公司名称。
目前多数的搜索词匹配方法多基于距离匹配方法,如构建坐标系,通过在坐标系的距离判断相似度,进而得到匹配结果。这种方法没有对公司名称的组成部分进行区别对待,因为公司名称的组成中,属性的重要性是不同的,比如、“同芙深圳医疗美容控股有限公司”、“同芙集团中国医疗美容股份有限公司”、以及“芙蓉深圳医疗美容控股有限公司”三个公司名称中,按照基于距离匹配方法,“同芙深圳医疗美容控股有限公司”以及“芙蓉深圳医疗美容控股有限公司”可以认为是相近的,因为两个公司名称的区域(深圳)相同,领域(医疗美容)结尾词(控股有限公司)相同,只有机构名称(同芙、芙蓉)不同,但是,事实上,这两个公司却是完全不相同的公司,而“同芙深圳医疗美容控股有限公司”与“同芙集团中国医疗美容股份有限公司”却是相同的公司,因此,距离匹配方法虽然可以达到匹配的目的,但是匹配结果并不准确。
发明内容
本发明提供一种搜索词匹配方法、装置、电子设备及计算机可读存储介质,其主要目的在于提供一种基于更加准确的搜索词匹配方法。
为实现上述目的,本发明提供的一种搜索词匹配方法,包括:
对原始搜索词进行分词操作得到一组或多组初级搜索词;
对所述初级搜索词添加属性标签得到标签搜索词;
计算所述标签搜索词在预构建的搜索词数据库中的搜索频率,根据所述标签搜索词的属性标签计算所述标签搜索词的属性权重;
将所述标签搜索词进行词向量转化得到标签搜索词向量,根据所述搜索频率及所述属性权重,计算所述标签搜索词向量与所述搜索词数据库内每个搜索词向量的相似度得到相似度集;
根据所述相似度集,从所述搜索词数据库中选择满足预设相似度条件的搜索结果。
可选地,所述将所述标签搜索词进行词向量转化得到标签搜索词向量,包括:
构建搜索词矩阵并根据预设填充规则,将所述标签搜索词填充至所述搜索词矩阵;
对填充完成的所述搜索词矩阵进行编码压缩得到标签搜索词向量。
可选地,所述对填充完成的所述搜索词矩阵进行编码压缩得到标签搜索词向量,包括:
根据填充完成的所述搜索词矩阵,建立前向概率模型和后向概率模型;
将所述前向概率模型及所述后向概率模型相加并求导得到标签搜索词向量。
可选地,所述前向概率模型为:
所述后向概率模型为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010134331.X/2.html,转载请声明来源钻瓜专利网。