[发明专利]一种基于图像和文本相关性挖掘的Web图像聚类方法无效

申请号：	200910100071.8	申请日：	2009-06-22
公开（公告）号：	CN101582080A	公开（公告）日：	2009-11-18
发明（设计）人：	庄越挺;吴飞;韩亚洪	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州求是专利事务所有限公司	代理人：	张法高
地址：	310027***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于图像文本相关性挖掘 web 方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图像和文本相关性挖掘的Web图像聚类方法，其特征在于包括如下步骤：

(1)根据用户查询提取Google图片搜索的检索结果中的图像及其伴随文本，提取伴随文本中的名词构成词汇表；

(2)对伴随文本进行文本处理并提取文本特征；

(3)计算词汇表中每个单词的可见度；

(4)将单词的可见度与TF-IDF方法集成以计算单词和图像相关性关联；

(5)根据主题模型对伴随文本集合进行分析，提取隐含主题概率分布以计算词汇表中任意两个单词间的主题相关度；

(6)利用复杂图模型对单词和图像相关性关联以及单词和单词主题相关性关联进行建模；

(7)应用复杂图聚类算法对图像进行聚类；

所述的根据用户查询提取Google图片搜索的检索结果中的图像及其伴随文本，提取伴随文本中的名词构成词汇表的步骤如下：

(1)编写爬虫程序下载Google图片搜索的检索结果中的图像，构成图像集合IMG＝{Image₁，...，Image_Nd}，其中N_d是集合IMG中的图像总数；

(2)下载图像集合IMG中每个图像所在网页，利用页面解析程序对每个网页进行解析，去除HTML标记和标点符号后，保留页面上的文本内容作为图像的伴随文本；

(3)对每个图像的伴随文本进行词性标注，去除非名词单词，保留文本中的名词，构成伴随文本集合D＝{d₁，...，d_Nd}，其中N_d是集合D中的伴随文本总数；

(4)顺序扫描伴随文本集合D中的每个伴随文本d_i中的所有单词，其中i＝1，…，N_d，每个不同单词保留一个，形成单词列表表示的词汇表VOL＝{w_i，…，wN_w}，其中N_w是词汇表VOL中的单词总数；

所述的对伴随文本进行文本处理并提取文本特征的步骤如下：

(1)对词汇表VOL中的每个单词w_i，其中i＝1，…，N_w，N_w是词汇表中单词总数，顺序扫描伴随文本集合D中的每个伴随文本d_j，统计每个单词w_i在每个文档d_j中出现的次数n_ij，其中j＝1，…，N_d，N_d是伴随文本总数，并统计集合D中包含单词w_i的伴随文本个数num(w_i)；

(2)根据公式(1)计算每个单词w_i在每个伴随文本d_j中的词频freq(w_i，d_j)，其中i＝1，…，N_w，N_w是词汇表中单词总数，j＝1，…，N_d，N_d是集合D中伴随文本总数；

freq(wi,dj)=nij/Σk=1Nwnkj.---(1)]]>

(3)对词汇表VOL中的每个单词w_i，根据公式(2)计算其逆文档词频idf(w_i)；

idf(w_i)＝log(N_d/num(w_i)). (2)

(4)根据向量空间模型，将集合D中每个伴随文本d_j表示成N_w维向量，第i维对应词汇表中的单词w_i，其值为tfidf(w_i)，计算公式如下：

tfidf(w_i)＝freq(w_i，d_j)×idf(w_i). (3)；

所述的计算词汇表中每个单词的可见度的方法是：词汇表VOL中每个单词w_i的可见度值vis(w_i)由公式(4)计算；

vis(wi)=((C1+10-9)/(C2+10-9))-IDFGoogle(wi).---(4)]]>

其中，C₁是将单词w_i作为查询提交给Google图片搜索返回的检索结果总数，C₂是将单词w_i作为查询提交给Google文本搜索返回的检索结果总数；指数因子IDF_Google(w_i)的计算公式如下：

IDF_Google(w_i)＝log(|D_Google|/C₂). (5)

其中，D_Google是Google索引的所有Web页面集合，|D_Google|表示集合D_Google中的页面总数；

所述的将单词的可见度与TF-IDF方法集成以计算单词和图像相关性关联的方法是：单词w_i与图像Image_j的相关性关联r(w_i，Image_i)由公式(6)计算，其中j＝1，…，N_d，N_d是伴随文本总数；

r(w_i，Image_j)＝tfidf(w_i)×vis(w_i). (6)；

所述的根据主题模型对伴随文本集合进行分析，提取隐含主题概率分布以计算词汇表中任意两个单词间的主题相关度的步骤如下：

(1)以词汇表VOL、伴随文本集合D和集合D中的隐含主题数k作为主题模型隐含狄利克雷分配的输入，输出每个隐含主题z_j的概率分布P(z_j)和z_j在每个单词w_i上的概率分布P(w_i|z_j)，其中j＝1，…，k；

(2)集合VOL中任意两个单词w_s和w_t之间的主题相关度Topic_r(w_s，w_t)由公式(7)所定义的主题相关度函数计算，其中σ是归一化常数，

Topic_r(ws,wt)=maxjP(z=j|ws)P(z=j|wt)]]>

=maxjp(ws|z=j)P(z=j)P(ws)·p(wt|z=j)P(z=j)P(wt)---(7);]]>

=maxjp(ws|z=j)p(wt|z=j)P(z=j)σ.]]>

所述的利用复杂图模型对单词和图像相关性关联以及单词和单词主题相关性关联进行建模的方法是：复杂图模型包含图像结点和单词结点两种不同类型结点，单词和图像间的异构链接以及单词和单词间的同构链接作为结点间的边，单词和图像链接权重由公式(6)所定义的单词和图像相关性关联r(w_i，Image_i)计算，单词和单词链接权重为公式(7)定义的单词和单词主题相关度函数Topic_r(w_s，w_t)计算，复杂图模型表示为如公式(8)所示的矩阵集合；

{S∈R+Nw×Nw,A∈R+Nd×Nd}.---(8)]]>

其中，对称矩阵表示单词和单词相关性矩阵，N_w是词汇表中单词总数，R₊是正实数集合，矩阵元素S_ij(i≠j)表示单词w_i和w_j之间的主题相关度，S_ij＝Topic_r(w_i，w_j)，矩阵表示单词和图像相关性矩阵，N_d是图像总数，矩阵元素A_ij表示单词w_i和第j个图像Image_j之间的相关性关联，A_ij＝tfidf(w_i)·vis(w_i)；