[发明专利]用于表征功能实体的和用于将功能实体消歧的方法和设备在审
申请号: | 201210281408.1 | 申请日: | 2012-08-09 |
公开(公告)号: | CN103577491A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 胡钦谙;黄耀海;李荣军 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 欧阳帆 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 表征 功能 实体 方法 设备 | ||
技术领域
本发明涉及用于表征在包括关于对装置进行操作的信息的文档中的功能实体的方法和设备、以及用于将文档中的功能实体消歧的方法和设备。
背景技术
对于实体消歧的需求通常出现在其中表示相同实体的数据对象以不同的方式呈现并且没有用于相同实体的统一的标识符的信息整合应用中。实体消歧通常是在可以进行关于实体的任何其它推论之前必须被执行的关键的第一步。
手册、操作指南以及包括关于对一个装置或一类装置进行操作的信息的类似文档在企业和我们的日常生活中被频繁地使用。这些文档的特征在于是随时间演变的,并且因此会具有多个版本。例如,当发布一个系列的数字式照相机的新型号时,用于该系列的照相机的手册将演变成与新型号对应的新版本。手册或操作指南中的功能实体和一般性的表达在多个版本的手册或操作指南之间可能不同。因此,存在对于多个版本的文档进行功能实体消歧的需求。
功能实体指的是设定、选项、动作、部件、步骤和功能等的命名实体,并且在手册、操作指南和包括关于对装置进行操作的信息的类似文档中频繁出现。为了利用相同的标识符来标识在不同版本的文档(尤其是手册或操作指南)中的相同的功能实体,可以执行功能实体消歧。一般,在制作手册之前将功能实体编索引(index)。对于多个版本的文档的功能实体消歧的任务是使文档中的功能实体同索引(co-index)。
功能实体消歧系统一般获取文档和索引化的功能实体列表作为其输入,并且输出同索引的功能实体的列表。期望的是,一系列文档中的功能名的演变可以通过使用功能实体消歧来跟踪。例如,如表1中所示出的,由相同公司制造的数字式照相机的所有型号具有相同的菜单“FUNC.菜单”(#12)。功能“自动回放(自动播放)”、“自动回放(幻灯片放映)”和“观看幻灯片放映”是同索引的(#17)。此外,“捕获最佳面部表情(最佳图像选择)”被指定一个新的标识符(#203),因为它仅存在于照相机型号220/230中。
表1功能名的演变
然而,将多个版本的文档中的功能实体消歧在现有技术中是困难的。
图2示出了实体消歧的基本流程图。首先,输入文档,如步骤S210所示。然后,识别输入的文档中的实体,如步骤S220所示。接下来,获得候选标识符,如步骤S230所示。然后,提取对于每个候选标识符的特征,并且通过利用所识别的实体和候选标识符的特征来将所识别的实体和候选标识符进行比较,如步骤S240和S250所示。最后,输出与所识别的实体对应的标识符。
实体消歧的基本解决方案是利用实体的文字(literal)名字,也就是说,通过使用传统上用来计算字符串之间的相似度的方法(诸如余弦距离等)来比较实体的文字名字。这种解决方案可以正确地将具有相同的或非常类似的文字功能名的功能实体消歧。
对于不具有相类的文字的功能名的功能实体,一种改进在于识别这些名字中的语义。
实体消歧的改进的解决方案是利用实体之间的关系。美国专利申请公开No.2011/0246492A1(在下文中被称为“现有技术1”)和美国专利申请公开No.2011/0246494A1(在下文中被称为“现有技术2”)公开了通过使用生活弧线(life arc)作为特征来执行实体消歧的方法。提出了几种生活弧线模板。实体的空间和时间数据被用来填入(populate)这些模板。然而,显然在现有技术1和现有技术2中公开的这种方法仅适用于将人名消歧,而不能被用于将功能实体消歧。
美国专利No.7,685,201(在下文中被称为“现有技术3”)提出了用于将人名消歧的方法,其基于搜索结果将不同的人分组到不同的集群中。然而,在现有技术3中提供的聚类算法不能较好地用来将手册中的功能实体消歧,其通常是小数据集并且是稀疏的。
上述方法对于将功能相同但具有不同名字的功能实体(也就是说,功能在字面上(literally)不同但是在语义上相同的功能实体)消歧方面会有问题。拿下面的(1)和(2)中示出的功能名为例:
(1)镜头周边亮度校正(先前版本)
(2)校正图像的暗角(当前版本)。
这些功能实体的名字在字面上完全不同,但是它们在数字式照相机中具有相同的功能。
发明内容
鉴于上述内容,需要提供能够将一个文档或多个版本的文档(尤其是手册和操作指南)中的功能实体消歧的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210281408.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:核电站燃料包壳用含硫的锆铌铁合金
- 下一篇:一种含银的牙科用钛合金材料