[发明专利]一种确定图片簇描述文本核心词的方法及装置有效
申请号: | 201310674702.3 | 申请日: | 2013-12-11 |
公开(公告)号: | CN103646074B | 公开(公告)日: | 2017-06-23 |
发明(设计)人: | 陶哲 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中强智尚知识产权代理有限公司11448 | 代理人: | 姜精斌 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 图片 描述 文本 核心 方法 装置 | ||
技术领域
本发明涉及数据通信技术领域,尤其涉及一种确定图片簇描述文本核心词的方法及装置。
背景技术
现有技术中搜索引擎依据网络爬虫/网络蜘蛛抓取互联网上的各个页面,针对每个页面的描述文本,可以确定每个页面的核心词。
但是,当搜索引擎抓取到的海量图片做相似度识别后会发现很多一组一组的相似图片,其中,每张图片都有源网页上自身的不完全相同的图片描述文本,同时也有可能是描述不实的图片描述文本。这样要确定图片对应其内容的真实的图片描述文本或核心词就异常困难,对于不断更新的海量图片全部通过人工标注的方式也是不现实的。另外,因为图片描述文本一般包含的字节数较少,并且其中还可能包含很多与图片不相关的干扰信息,从而无法从中确定较准确的核心词,也为确定与图片真实匹配的核心词或描述文本造成了极大的困难。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种确定图片簇描述文本核心词的方法及装置。
本发明实施例提供一种确定图片簇描述文本核心词的方法,该方法包括:
针对每个图片簇,提取该图片簇中每个图片的图片描述文本,将每个所述图片描述文本保存在文本簇中;
对文本簇中的每个图片描述文本进行切词处理,得到每个图片描述文本中的基础词;
根据每个基础词的属性信息,确定每个基础词在每个图片描述文本中的权值,并确定每个基础词在每个图片描述文本中的分数值;
根据每个基础词在每个图片描述文本中的分数值,确定每个基础词在文本簇中的总分数值;
根据确定的每个基础词在文本簇中的总分数值,确定该图片簇的核心词。
较佳地,为了准确的确定出每个图片簇的核心词,确定每个基础词在文本簇中的总分数值之后,所述方法还包括:
根据确定的每个基础词在文本簇中的总分数值,确定每个图片描述文本的总得分值;
根据每个图片描述文本的总得分值,删除设定数量的图片描述文本;
判断删除设定数量的图片描述文本后,该文本簇中包含的图片描述文本的数量是否达到设定的收敛阈值;
当该文本簇中包含的图片描述文本的数量达到设定的收敛阈值时,在该文本簇中确定该图片簇的核心词,否则,重新确定该文本簇中剩余的每个图片描述文本的总得分值直至确定出图片簇的核心词。
较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述确定每个基础词在每个图片描述文本中的权值之前,所述方法还包括下述至少一个步骤:
对切词处理后的基础词进行去噪声处理;和
对文本簇中每个图片描述文本进行去噪声处理。
较佳地,在本发明实施例中为了更加准确的确定文本簇的核心词。所述对切词处理后的基础词进行去噪声处理包括:
将切词后得到的每个基础词与保存的无意义词库中的每个词进行匹配;
当匹配成功时,确定该基础词为无意义词,将该基础词删除。
较佳地,在本发明实施例中为了更加准确的确定图片簇的核心词。所述对文本簇中每个图片描述文本进行去噪声处理包括以下至少一个处理步骤:
判断每个图片描述文本是否满足设定的过滤条件;当该图片描述文本满足设定的过滤条件时,将该图片描述文本删除;和
将每两个图片描述文本进行比较,按照该两个图片描述文本基础词的顺序,判断该两个图片描述文本中出现相同基础词的数量是否达到设定的数量阈值;当该两个图片描述文本中出现相同基础词的数量达到设定的数量阈值时,删除该两个图片描述文本中的一个图片描述文本。
较佳地,在本发明实施例中为了准确的确定图片簇的核心词。所述确定该基础词在该图片描述文本中的权值包括:
根据统计的每个基础词的频度,确定该基础词的基础值;
根据该基础词在图片描述文本中出现的位置,及设置的每个位置对应的位置权重值,确定每个基础词的位置值;
根据该基础词包含的字节数,及设置的每种基础词长度对应的长度权重值,确定该基础词的长度值;
根据该基础词的词性,及设置的每种词性对应的词性权重值,确定该基础词的词性值;
根据确定的该基础词的基础值、位置值、长度值和词性值,确定该基础词的子权值;
根据确定的该图片描述文本中每个位置的该基础词的子权值的和,确定该基础词在该图片描述文本中的权值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310674702.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含有蚯蚓粉和沼渣的黄鳝饲料及其生产方法
- 下一篇:一种葡萄柚面膜