[发明专利]确定文档之间的相似度的方法和设备有效
申请号: | 201110103501.9 | 申请日: | 2011-04-25 |
公开(公告)号: | CN102236693A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 三品拓也;吉滨佐知子 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;杨晓光 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 文档 之间 相似 方法 设备 | ||
技术领域
本发明涉及用于确定多个文档之间的相似度的方法、设备和计算机程序。
背景技术
现在,演示文档的创建逐步增加。经常在一个或多个现有文档的基础上创建新的演示文档。在这种环境中,当机密文档被泄露时,公司会担心丧失信誉度,并且由于丧失信誉度而导致的财务损失风险也将增加。很难断绝有问题文档的泄露并且很难确定该演示文档的创建基础。对于只包括文本的文档,其比较方法是公知的。但是,由于演示文档中混合了对象、文本以及图形和图像等非文本信息,所以很难进行比较。
在专利文献1中,每个图形的面积用作比较确定的基础。具体地说,在比较两个页面时,通过将一个页面上对象之间的面积比与另一页面上对象之间的面积比相比较来确定页面之间的相似度。但是,在专利文献1的方法中,当对象之间的面积比不同时,则确定不存在相似度。因此,这种确定明显不同于人类执行的相似度确定。而且,在专利文献1中,仅使用图像信息而未考虑文本信息。总之,专利文献1中的方法可以被认为是一种在生成完整页面的缩放副本时有效的相似度确定方法。
在非专利文献1中,采用了一种方法,其中当获得了图像之间的相似度时,矢量图像被转换为图形表示,并且图像之间的相似度被计算为图形之间的相似度。但是,在计算诸如演示文档之类的包括图形的文档之间的相似度时,通过非专利文献1中的方法无法获得足够的准确性。这是因为演示文档包括文本数据以及图形数据,并且文本数据显著影响文档的特性。此外,在非专利文献1的方法中,当在完全不同的文档中使用相同图像对象(例如,跨各文档频繁使用的公司标识或剪贴画)时,这些文档将被错误地检测为是相似文档。
非专利文献2披露了一种基于随机游动的图挖掘方法。非专利文献2未描述使用对象之间的面积比获取文本之间的相似度或文档之间的相似度的方法。
引用列表
专利文献
[PTL 1]日本未审查的申请公开No.2007-164648
非专利文献
[NPL 1]Anoop M.Namboodiri,Anil K.Jain,“Retrieval of on-line Hand-Drawn Sketches(检索在线手绘草图,icpr,Vol 2,第642-645页,第17届国际模式识别大会(ICPR′04)-卷2,2004)”
[NPL 2]Kashima H.,Tsuda K.和Inokuchi A.的“Marginalized kernels between labeled graphs(标记图之间的边际核函数,ICML,′03:第20届国际机器学习大会会议记录,AAAI Press,2003,321-328)”
发明内容
技术问题
鉴于上述情况,本发明的目标是提供一种用于检测其中混合了文本信息和非文本信息的文档之间的相似度的技术、一种用于在考虑每个对象的重要度的情况下检测文档之间的相似度的技术,以及一种用于以非常符合人类在一瞥之下确定文档之间相似度的方式执行文档之间的相似度确定的技术。
解决方案
为了解决上述问题,本发明提供了一种支持确定两个文档数据段之间的相似度的计算机可执行的方法。所述文档数据段包括对象,所述对象包括文本、非文本或文本与非文本的组合。所述方法包括以下步骤:将所述文档数据段中的每个文档数据段转换为有向图并存储所述有向图,以及通过计算机的操作,使用每个对象的重要度计算转换后的有向图之间的相似度。
在这种情况下,每个对象的重要度可以是所述对象的面积与所有对象的总面积的比(面积比)。
此外,转换为有向图的步骤可包括以下步骤:将文档数据中的对象转换为节点并将所述对象中的每个对象的属性存储为所述节点中的一个对应节点所拥有的特征,以及通过边连接所述节点并存储指示要连接的节点之间的位置关系的信息。
在这种情况下,所述节点所拥有的特征可包括文本、图像或图形属性。
此外,指示所述位置关系的信息可包括上方、下方、左侧或右侧。
此外,可通过图挖掘来执行计算有向图之间的相似度的步骤。
此外,可使用以下项执行通过图挖掘计算相似度的步骤:运算从节点i开始的概率、发生通过边转移到与节点i相连的节点j的概率、运算在节点i结束的概率、指示一对节点(v,v′)之间的相似度的核函数,以及指示一对边(e,e′)之间的相似度的核函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110103501.9/2.html,转载请声明来源钻瓜专利网。