[发明专利]一种候选同义词确定方法、装置、服务器及存储介质有效
申请号: | 201911357376.7 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111126048B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 康战辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/284;G06F40/42 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 夏欢 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 候选 同义词 确定 方法 装置 服务器 存储 介质 | ||
本申请提供一种候选同义词确定方法、装置、服务器及存储介质,通过获取多个搜索语料,分别对每个搜索语料进行分词得到各个搜索语料的分词序列;针对各个分词序列中的第一分词序列和第二分词序列,基于分词序列表征的分词排序信息和分词数量,确定第二分词序列中与第一分词序列的目标分词匹配的第一候选分词;并比较第一分词序列中与目标分词排序相关的第一分词信息和第二分词序列中与第一候选分词排序相关的第二分词信息得到比较结果;根据比较结果和第一候选分词确定第二分词序列中用于与第一分词序列的目标分词构成候选同义词的第二候选分词的方式,提高了候选同义词确定结果的准确性。
技术领域
本发明涉及同义词挖掘技术领域,更具体地说,涉及一种候选同义词确定方法、装置、服务器及存储介质。
背景技术
目前同义词词典的构建过程通常是先对搜索引擎上点击了同一个搜索结果的各个搜索语料做自动对齐得到搜索语料之间的同义词,再由人工从所得到的同义词中筛选出用于构成同义词词典的同义词。
现有技术将搜索语料自动对齐看成了翻译问题,采用自动翻译技术先确定搜索语料之间的候选同义词再基于候选同义词进行迭代优化得到搜索语料之间的同义词。
这种搜索语料自动对齐技术的核心是翻译,而翻译侧重于相同词之间的对齐,其在确定搜索语料之间的候选同义词时更侧重于将不同搜索语料中相同的词确定为候选同义词,候选同义词确定结果不准确,进而导致了同义词挖掘结果不准确的问题。
发明内容
有鉴于此,本发明提出一种候选同义词确定方法、装置、服务器及存储介质,以提高搜索语料之间候选同义词确定结果的准确性,进而提高同义词挖掘结果的准确性。
为了实现上述目的,现提出的方案如下:
一种候选同义词确定方法,包括:
获取多个搜索语料,各个所述搜索语料的搜索结果中存在相同的被点击的搜索结果;
分别对每个所述搜索语料进行分词得到各个所述搜索语料的分词序列;
针对各个所述分词序列中的第一分词序列和第二分词序列,基于所述分词序列表征的分词排序信息和分词数量,确定所述第二分词序列中与所述第一分词序列的目标分词匹配的第一候选分词;
比较所述第一分词序列中与所述目标分词排序相关的第一分词信息和所述第二分词序列中与所述第一候选分词排序相关的第二分词信息得到比较结果;
根据所述比较结果和所述第一候选分词确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词。
一种候选同义词确定装置,包括:
搜索语料获取单元,用于获取多个搜索语料,各个所述搜索语料的搜索结果中存在相同的被点击的搜索结果;
分词单元,用于分别对每个所述搜索语料进行分词得到各个所述搜索语料的分词序列;
第一候选分词确定单元,用于针对各个所述分词序列中的第一分词序列和第二分词序列,基于所述分词序列表征的分词排序信息和分词数量,确定所述第二分词序列中与所述第一分词序列的目标分词匹配的第一候选分词;
比较结果生成单元,用于比较所述第一分词序列中与所述目标分词排序相关的第一分词信息和所述第二分词序列中与所述第一候选分词排序相关的第二分词信息得到比较结果;
第二候选分词确定单元,用于根据所述比较结果和所述第一候选分词确定所述第二分词序列中用于与所述第一分词序列的所述目标分词构成候选同义词的第二候选分词。
一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现所述候选同义词确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911357376.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于人脸识别的滞留发现与预警方法及系统
- 下一篇:一种泡沫镍电极及其制备方法