[发明专利]确定文档之间的相似度的方法和设备有效
| 申请号: | 201110103501.9 | 申请日: | 2011-04-25 |
| 公开(公告)号: | CN102236693A | 公开(公告)日: | 2011-11-09 |
| 发明(设计)人: | 三品拓也;吉滨佐知子 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
| 地址: | 美国*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 确定 文档 之间 相似 方法 设备 | ||
1.一种支持确定两个文档数据段之间的相似度的计算机可执行的方法,所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合,所述方法包括以下步骤:
将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图;以及
使用每个对象的重要度计算转换后的有向图之间的相似度。
2.如权利要求1中所述的方法,其中每个对象的重要度是所述对象的面积与所有对象的总面积的比亦即面积比。
3.如权利要求1中所述的方法,其中转换为有向图的步骤包括以下步骤:
将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征,以及
通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息。
4.如权利要求3中所述的方法,其中所述节点所拥有的特征包括文本、图像或图形属性。
5.如权利要求3中所述的方法,其中指示所述位置关系的信息包括上方、下方、左侧或右侧。
6.如权利要求1中所述的方法,其中通过图挖掘来执行计算有向图之间的相似度的步骤。
7.如权利要求6中所述的方法,其中使用以下项执行通过图挖掘计算相似度的步骤:运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i结束的概率、指示一对节点(v,v′)之间的相似度的核函数,以及指示一对边(e,e′)之间的相似度的核函数。
8.如权利要求7中所述的方法,其中通过基于随机游动的图挖掘来执行通过图挖掘计算相似度的步骤,并且假设转换后的有向图为G和G′,当使用以下项计算指示有向图G和G′之间的相似度的核函数K(G,G′)时:
ps(i):随机游动从节点i开始的概率,
pt(j|i):发生从节点i转移到节点j的转移概率,
pq(i):随机游动在节点i结束的概率,
K(v,v′):指示所述一对节点(v,v′)之间的相似度的核函数,以及
K(e,e′):指示所述一对边(e,e′)之间的相似度的核函数,
ps(i)或pt(j|i)的值随每个对象的面积与所有对象的总面积的比亦即面积比而成比例地增大。
9.一种支持确定两个文档数据段之间的相似度的计算机可执行的系统,所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合,所述系统包括:
用于将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图的装置;以及
用于通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度的装置。
10.如权利要求9中所述的系统,其中每个对象的重要度是所述对象的面积与所有对象的总面积的比亦即面积比。
11.如权利要求9中所述的系统,其中用于转换为有向图的装置包括:
用于将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征的装置,以及
用于通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息的装置。
12.如权利要求11中所述的系统,其中所述节点所拥有的特征包括文本、图像或图形属性。
13.如权利要求11中所述的系统,其中指示所述位置关系的信息包括上方、下方、左侧或右侧。
14.如权利要求9中所述的系统,其中通过图挖掘来执行有向图之间的相似度的计算。
15.如权利要求14中所述的系统,其中使用以下项执行通过图挖掘计算所述相似度:运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i结束的概率、指示一对节点(v,v′)之间的相似度的核函数,以及指示一对边(e,e′)之间的相似度的核函数。
16.如权利要求15中所述的系统,其中通过基于随机游动的图挖掘来执行通过图挖掘计算所述相似度,并且假设转换后的有向图为G和G′,当使用以下项计算指示有向图G和G′之间的相似度的核函数K(G,G′)时:
ps(i):随机游动从节点i开始的概率,
pt(j|i):发生从节点i转移到节点j的转移概率,
pq(i):随机游动在节点i结束的概率,
K(v,v′):指示所述一对节点(v,v′)之间的相似度的核函数,以及
K(e,e′):指示所述一对边(e,e′)之间的相似度的核函数,
ps(i)或pt(j|i)的值随每个对象的面积与所有对象的总面积的比亦即面积比而成比例地增大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110103501.9/1.html,转载请声明来源钻瓜专利网。





