[发明专利]从候选数据集获取目标数据集的方法和装置以及翻译机器无效
申请号: | 201010257678.X | 申请日: | 2010-08-17 |
公开(公告)号: | CN102375839A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 郑仲光;何中军;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;周涛 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 候选 数据 获取 目标 方法 装置 以及 翻译 机器 | ||
技术领域
本申请涉及数据提取,具体而言,涉及一种从候选数据集获取目标数据集的方法和装置。此外,本申请还涉及一种翻译机器。
背景技术
传统地,根据特定的目标数据样本从候选数据集中获取特定的目标数据通常通过判断候选数据集中的数据和目标数据样本之间的相似度手工地进行选择,或者甚至从候选数据级中随机选取一些数据作为目标数据。明显地,这种传统的方式和方法不能提供高质量的目标数据。
发明内容
在下文中将给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序
根据本申请的实施例,从目标数据样本提取特征,利用所述特征从所述候选数据集中抽取目标数据,从而形成目标数据集。
这样,基于针对所述特定目的的目标数据样本从候选数据集抽取子集形成目标数据集。所形成的目标数据集的生成更为迅速。此外,所形成的目标数据集更为符合后续处理的要求。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1示出了根据本发明的一个实施例的用于从候选数据集获取目标数据集的方法的流程图,
图2示出了根据本发明的另一实施例的用于从候选数据集获取目标数据集的方法的流程图,
图3示出了根据本发明的另一实施例的用于从候选数据集获取目标数据集的方法的流程图,
图4示出了根据本发明的另一实施例的用于从候选数据集获取目标数据集的方法的流程图,
图5示出了根据本发明的一个实施例的用于从候选数据集获取目标数据集的装置的示意性结构图,
图6示出了根据本发明的一个实施例的用于从候选数据集获取目标数据集的装置的抽取单元的示意性结构图,
图7示出了根据本发明的另一实施例的用于从候选数据集获取目标数据集的装置的抽取单元的示意性结构图,
图8示出了根据本发明的另一实施例的用于从候选数据集获取目标数据集的装置的抽取单元的示意性结构图,以及
图9示出了示出了可用于实施根据本发明的实施例的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构,而省略了与本发明关系不大的其他细节。
第一实施例
图1示出了根据本申请的实施例的从候选数据集获取目标数据集的方法的流程图。为了从候选数据集获取目标数据集,在S110中从目标数据样本提取特征。该目标数据样本可以包括一个或多个数据,其中数据包括数据元素。数据可以包括:字符串、句子或者图片集。相应地,数据元素可以是字符、词语或者图片。显然,所述特征可以是任何特征,作为非限制性的例子,所提取的特征可以由数据元素中的至少一部分构成。例如,如果目标数据样本为一个句子,则其数据元素是构成该句子的词语,而提取到的特征则是句子中的至少一个词语。在从目标数据样本中提取到多个特征时,基于特征在目标数据样本中出现的频率确定各个特征的权重。选取高权重的特征作为目标数据样本的特征。换言之,特征在目标数据样本中出现的频率越高,则其权重就越高。
在S120中,利用所述特征从候选数据集中抽取目标数据,形成目标数据集。候选数据集可以是涵盖目标数据集的数据集并且可以包括图片、文本或语料等等。待形成的目标数据集是特定于目标数据样本的数据集。借助S120,根据在S110中提取到的目标数据样本的特征,在候选数据集中找出带有所述特征的候选数据,以形成目标数据集。在此,候选数据同样可以包括数据元素,其数据元素也可以是字符、词语或图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010257678.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置