[发明专利]一种基于图像和文本相关性挖掘的Web图像聚类方法无效

专利信息
申请号: 200910100071.8 申请日: 2009-06-22
公开(公告)号: CN101582080A 公开(公告)日: 2009-11-18
发明(设计)人: 庄越挺;吴飞;韩亚洪 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州求是专利事务所有限公司 代理人: 张法高
地址: 310027*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 图像 文本 相关性 挖掘 web 方法
【权利要求书】:

1.一种基于图像和文本相关性挖掘的Web图像聚类方法,其特征在于包括如下步骤:

(1)根据用户查询提取Google图片搜索的检索结果中的图像及其伴随文本,提取伴随文本中的名词构成词汇表;

(2)对伴随文本进行文本处理并提取文本特征;

(3)计算词汇表中每个单词的可见度;

(4)将单词的可见度与TF-IDF方法集成以计算单词和图像相关性关联;

(5)根据主题模型对伴随文本集合进行分析,提取隐含主题概率分布以计算词汇表中任意两个单词间的主题相关度;

(6)利用复杂图模型对单词和图像相关性关联以及单词和单词主题相关性关联进行建模;

(7)应用复杂图聚类算法对图像进行聚类;

所述的根据用户查询提取Google图片搜索的检索结果中的图像及其伴随文本,提取伴随文本中的名词构成词汇表的步骤如下:

(1)编写爬虫程序下载Google图片搜索的检索结果中的图像,构成图像集合IMG={Image1,...,ImageNd},其中Nd是集合IMG中的图像总数;

(2)下载图像集合IMG中每个图像所在网页,利用页面解析程序对每个网页进行解析,去除HTML标记和标点符号后,保留页面上的文本内容作为图像的伴随文本;

(3)对每个图像的伴随文本进行词性标注,去除非名词单词,保留文本中的名词,构成伴随文本集合D={d1,...,dNd},其中Nd是集合D中的伴随文本总数;

(4)顺序扫描伴随文本集合D中的每个伴随文本di中的所有单词,其中i=1,…,Nd,每个不同单词保留一个,形成单词列表表示的词汇表VOL={wi,…,wNw},其中Nw是词汇表VOL中的单词总数;

所述的对伴随文本进行文本处理并提取文本特征的步骤如下:

(1)对词汇表VOL中的每个单词wi,其中i=1,…,Nw,Nw是词汇表中单词总数,顺序扫描伴随文本集合D中的每个伴随文本dj,统计每个单词wi在每个文档dj中出现的次数nij,其中j=1,…,Nd,Nd是伴随文本总数,并统计集合D中包含单词wi的伴随文本个数num(wi);

(2)根据公式(1)计算每个单词wi在每个伴随文本dj中的词频freq(wi,dj),其中i=1,…,Nw,Nw是词汇表中单词总数,j=1,…,Nd,Nd是集合D中伴随文本总数;

freq(wi,dj)=nij/Σk=1Nwnkj.---(1)]]>

(3)对词汇表VOL中的每个单词wi,根据公式(2)计算其逆文档词频idf(wi);

idf(wi)=log(Nd/num(wi)).                                 (2)

(4)根据向量空间模型,将集合D中每个伴随文本dj表示成Nw维向量,第i维对应词汇表中的单词wi,其值为tfidf(wi),计算公式如下:

tfidf(wi)=freq(wi,dj)×idf(wi).                         (3);

所述的计算词汇表中每个单词的可见度的方法是:词汇表VOL中每个单词wi的可见度值vis(wi)由公式(4)计算;

vis(wi)=((C1+10-9)/(C2+10-9))-IDFGoogle(wi).---(4)]]>

其中,C1是将单词wi作为查询提交给Google图片搜索返回的检索结果总数,C2是将单词wi作为查询提交给Google文本搜索返回的检索结果总数;指数因子IDFGoogle(wi)的计算公式如下:

IDFGoogle(wi)=log(|DGoogle|/C2).                          (5)

其中,DGoogle是Google索引的所有Web页面集合,|DGoogle|表示集合DGoogle中的页面总数;

所述的将单词的可见度与TF-IDF方法集成以计算单词和图像相关性关联的方法是:单词wi与图像Imagej的相关性关联r(wi,Imagei)由公式(6)计算,其中j=1,…,Nd,Nd是伴随文本总数;

r(wi,Imagej)=tfidf(wi)×vis(wi).                        (6);

所述的根据主题模型对伴随文本集合进行分析,提取隐含主题概率分布以计算词汇表中任意两个单词间的主题相关度的步骤如下:

(1)以词汇表VOL、伴随文本集合D和集合D中的隐含主题数k作为主题模型隐含狄利克雷分配的输入,输出每个隐含主题zj的概率分布P(zj)和zj在每个单词wi上的概率分布P(wi|zj),其中j=1,…,k;

(2)集合VOL中任意两个单词ws和wt之间的主题相关度Topic_r(ws,wt)由公式(7)所定义的主题相关度函数计算,其中σ是归一化常数,

Topic_r(ws,wt)=maxjP(z=j|ws)P(z=j|wt)]]>

=maxjp(ws|z=j)P(z=j)P(ws)·p(wt|z=j)P(z=j)P(wt)---(7);]]>

=maxjp(ws|z=j)p(wt|z=j)P(z=j)σ.]]>

所述的利用复杂图模型对单词和图像相关性关联以及单词和单词主题相关性关联进行建模的方法是:复杂图模型包含图像结点和单词结点两种不同类型结点,单词和图像间的异构链接以及单词和单词间的同构链接作为结点间的边,单词和图像链接权重由公式(6)所定义的单词和图像相关性关联r(wi,Imagei)计算,单词和单词链接权重为公式(7)定义的单词和单词主题相关度函数Topic_r(ws,wt)计算,复杂图模型表示为如公式(8)所示的矩阵集合;

{SR+Nw×Nw,AR+Nd×Nd}.---(8)]]>

其中,对称矩阵表示单词和单词相关性矩阵,Nw是词汇表中单词总数,R+是正实数集合,矩阵元素Sij(i≠j)表示单词wi和wj之间的主题相关度,Sij=Topic_r(wi,wj),矩阵表示单词和图像相关性矩阵,Nd是图像总数,矩阵元素Aij表示单词wi和第j个图像Imagej之间的相关性关联,Aij=tfidf(wi)·vis(wi);

所述的应用复杂图聚类算法对图像进行聚类的方法可表示为如公式(9)所定义的优化问题;

minC(1),C(2),D,B||S-C(1)D(C(1))T||2+||A-C(1)B(C(2))T||2s.t.C(1){0,1}Nw×k1,C(2){0,1}Nd×k2,C(1)1=1,C(2)1=1.---(9)]]>

其中,向量1的每个分量都为1,k1和k2分别表示单词和图像的聚类个数,类属指示矩阵C(1)和C(2)是复杂图聚类算法的输出,矩阵元素表示第p个图像Imagep属于第q类,对公式(9)所定义的优化问题进行求解的复杂图聚类算法如算法1所示:

算法1.复杂图G1的聚类算法CGC.

输入:矩阵S和A;

输出:类属指示矩阵C(1)和C(2),k1和k2分别是单词和图像的聚类个数;

步骤1.重复迭代步骤2-5直到收敛;

步骤2.计算D=((C(1))TC(1))-1(C(1))TSC(1)(C(1))TC(1))-1

步骤3.计算B=((C(1))TC(1))-1(C(1))TAC(2)(C(2))TC(2))-1

步骤4.固定D,B和C(2),逐行更新C(1),使得最小化L,L计算如下:

L=‖S-C(1)D(C(1))T2+‖A-C(1)B(C(2))T2

步骤5.固定D,B和C(1),逐行更新C(2),使得最小化L,L计算如下:

L=‖S-C(1)D(C(1))T2+‖A-C(1)B(C(2))T2.

根据算法1输出的类属指示矩阵C(2)对图像集合IMG进行聚类的方法是,如果矩阵元素则把第p个图像Imagep归为第q类,其中p=1,…,Nd,Nd表示集合IMG中图像总数,q=1,…,k2,k2表示IMG中图像的聚类个数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910100071.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top