[发明专利]一种基于视频搜索的分词信息推送方法和装置有效
申请号: | 201310462214.6 | 申请日: | 2013-09-30 |
公开(公告)号: | CN103500214A | 公开(公告)日: | 2014-01-08 |
发明(设计)人: | 崔代超 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 搜索 分词 信息 推送 方法 装置 | ||
1.一种基于视频搜索的分词信息推送方法,包括:
接收视频搜索字符串;
将所述视频搜索字符串映射为一个或多个第一分词;
查找与所述一个或多个第一分词的同现率高于预设阈值的关联第二分词;所述同现率为当前一个或多个第一分词与第二分词在同一视频资源数据中共同出现的概率;
推送所述一个或多个第一分词与所述一个或多个关联第二分词的组合。
2.如权利要求1所述的方法,其特征在于,所述将所述视频搜索字符串映射为一个或多个第一分词的步骤包括:
提取所述视频搜索字符串所映射的一个分词;
或者,
当接收到的视频搜索字符串为复合词时,将所述视频搜索字符串拆分为多个搜索子词;提取所述多个搜索子词所映射的多个分词。
3.如权利要求1所述的方法,其特征在于,所述查找与所述一个或多个第一分词的同现率高于预设阈值的关联第二分词的步骤包括:
当所述视频搜索字符串被映射为一个第一分词时,提取所述第一分词对应的预置索引表;其中,所述索引表包括所述第一分词所属的视频资源数据的信息,以及,所述视频资源数据中的所有分词;所述视频资源数据中的所有分词为通过抓取视频资源数据,提取所述视频资源数据的特征文本信息,对所述特征文本信息进行分词生成;
计算所述第一分词与所述索引表中各个第二分词的同现率,所述同现率为所述索引表中各个第二分词出现的次数与所述索引表中视频资源数据的信息总数的比值;其中,所述第二分词为所述视频资源数据中的所有分词中除所述第一分词以外的分词;
提取所述同现率高于预设阈值的第二分词作为关联第二分词。
4.如权利要求1所述的方法,其特征在于,所述查找与所述一个或多个第一分词的同现率高于预设阈值的关联第二分词的步骤包括:
当所述视频搜索字符串被映射为多个第一分词时,分别提取所述多个第一分词对应的多个预置索引表;各个索引表中包括所述第一分词所属的视频资源数据的信息,以及,所述视频资源数据中的所有分词;所述视频资源数据中的所有分词为通过抓取视频资源数据,提取所述视频资源数据的特征文本信息,对所述特征文本信息进行分词生成;
提取与所述多个第一分词共同出现的第二分词作为候选分词;其中,所述第二分词为所述视频资源数据中的所有分词中除所述第一分词以外的分词;
分别在各个索引表中计算所述第一分词与所述候选分词的同现率,所述同现率为所述索引表中候选分词出现的次数与所述索引表中视频资源数据的信息总数的比值;
分别为所述多个第一分词与所述候选分词的同现率配置对应的多个权重;
分别计算多个配置了权重的同现率的平均值,作为所述多个第一分词与所述候选分词的同现率;
提取所述同现率高于预设阈值的候选分词作为关联第二分词。
5.如权利要求1所述的方法,其特征在于,所述查找与所述一个或多个第一分词的同现率高于预设阈值的关联第二分词的步骤包括:
当所述视频搜索字符串被映射为多个第一分词时,分别提取所述多个第一分词对应的多个预置索引表;其中,各个索引表中包括所述第一分词所属的视频资源数据的信息,以及,所述视频资源数据中的所有分词;所述视频资源数据中的所有分词为通过抓取视频资源数据,提取所述视频资源数据的特征文本信息,对所述特征文本信息进行分词生成;
采用所述多个索引表确定主分词,所述主分词为视频资源数据的信息总数最多的索引表对应的第一分词;
计算所述主分词与其对应的索引表中各个第二分词的同现率,所述同现率为所述索引表中各个第二分词出现的次数与所述索引表中视频资源数据的信息总数的比值;其中,所述第二分词为所述视频资源数据中的所有分词中除所述第一分词以外的分词;
提取所述同现率高于预设阈值的第二分词作为关联第二分词。
6.如权利要求3或4或5所述的方法,其特征在于,所述特征文本信息包括视频标题、视频关键词和/或视频描述。
7.如权利要求5所述的方法,其特征在于,所述推送所述一个或多个第一分词与所述一个或多个关联第二分词的组合的步骤包括:
推送所述主分词和所述关联第二分词的组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310462214.6/1.html,转载请声明来源钻瓜专利网。