[发明专利]用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备在审
| 申请号: | 201810159371.2 | 申请日: | 2018-02-24 |
| 公开(公告)号: | CN108334631A | 公开(公告)日: | 2018-07-27 |
| 发明(设计)人: | 王璐;陈少杰;张文明 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张成新 |
| 地址: | 430000 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 搜索词 同义词 挖掘 词库 余弦相似度 搜索 直播 查询 计算机可读存储介质 预设时间段 存储介质 电子设备 信息计算 正整数 排序 | ||
本发明提供了一种用于挖掘直播间搜索词的同义词的方法,包括以下步骤:S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;S2,利用步骤S1获得的所述信息计算所述待查询搜索词与所述待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;S3,按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为所述待查询搜索词的同义词,其中N为预先设定的正整数。本发明还涉及相关的计算机可读存储介质以及电子设备。
技术领域
本发明涉及大数据搜索领域,具体涉及一种用于挖掘直播间搜索词的同义词的方法、相关计算机可读存储介质和设备。
背景技术
在直播平台上,用户在搜索直播间时,往往会输入一个词或者短语,就会得到一系列符合搜索词的直播间结果。然而在直播平台上,主播都会有一些外号和称呼,主播的粉丝们往往倾向于搜索这些词汇而不是直播间本身的名字。因此,需要挖掘直播间的同义词,用户搜索这些同义词也能返回正确的结果。
通常挖掘搜索词同义词的方法有以下几种:
(1)基于简单的统计,将发生了搜索点击行为的主播对应的搜索词进行统计,从出现次数较多的词中人工筛选,这样做的成本较大,且结果不可靠。
(2)基于上下文关系,对于两个词语,如果它们出现的上下文词语是相同的,那么这两个词很有可能是近义词或同义词。然而,在直播平台上用户的搜索词较短,很难有上下文环境。
因此,有必要提出一种新的用于挖掘直播间搜索词的同义词的方法。
发明内容
有鉴于此,为了克服上述问题的至少一个方面,本发明的实施例提供了一种实现挖掘直播间搜索词的同义词的方法。
根据本发明的一个方面,提供了一种用于挖掘直播间搜索词的同义词的方法,包括步骤:
S1,获取在预设时间段内待查询搜索词和待挖掘的搜索词库中的每一搜索词分别所对应的被点击的直播间的信息;
S2,利用步骤S1获得的所述信息计算所述待查询搜索词与所述待挖掘的搜索词库中的每一搜索词之间的余弦相似度值;
S3,按照所述余弦相似度值的大小对所述待挖掘的搜索词库中的搜索词进行从大到小排序,并且选择前N个搜索词作为所述待查询搜索词的同义词,其中N为预先设定的正整数。
例如,步骤S1进一步包括:
S11,获取所述待查询搜索词Q所对应的被点击的直播间集合R,其中,对于任意一个直播间r,r∈R,其被点击的次数是CQr;
S22,获取待挖掘搜索词库中的每一搜索词Qj所对应的被点击的直播间集合Rj,1≤j≤m,m为待挖掘搜索词库中待挖掘搜索词总数,其中,对于任意一个直播间r,r∈Rj,其被点击的次数是
例如,根据下式计算所述待查询搜索词Q与所述待挖掘搜索词库中的每一搜索词Qj之间的余弦相似度值:
其中,cossim(Q,Qj)是所述待查询搜索词Q和所述待挖掘搜索词库中的每一搜索词Qj的余弦相似度。
进一步地,步骤S22进一步包括:
获取待挖掘的搜索词库中的每一搜索词Qj所对应的被搜索次数。
进一步地,步骤S3进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810159371.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种URL分类方法及系统
- 下一篇:数据更新方法、装置、计算机设备和存储介质





