[发明专利]用于提取最大名词短语的装置、方法以及电子设备有效
申请号: | 201310084666.5 | 申请日: | 2013-03-15 |
公开(公告)号: | CN104050156B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 葛乃晟;付亦雯;郑仲光;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 郎晓虹,李春晖 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提取 最大 名词 短语 装置 方法 以及 电子设备 | ||
技术领域
本发明涉及数据处理领域,尤其涉及一种用于提取最大名词短语的装置、方法以及电子设备。
背景技术
随着信息技术和网络技术的突飞猛进,数据处理逐渐成为一个热门且不可或缺的领域。然而,由于数据信息以及数据源的丰富性和多样性,处理的目的和要求也不尽相同。
语言数据作为众多类型数据中的一种,在人们日常生活、工作中是极为常见的。例如,电子邮件、手机间互发的短消息以及人们学习和工作中需要处理的各种文件中所包含的文字信息,都是语言数据。现有的用于处理语言数据的技术尚存在处理精度不够高的问题。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,本发明提供了一种用于提取最大名词短语的装置、方法以及电子设备,以至少解决现有的语言数据处理技术所存在的处理精度不高的问题。
根据本发明的一个方面,提供了一种用于提取最大名词短语的装置,该装置包括:名词短语确定单元,用于在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语,其中,每个名词短语模板包括按其对应的预定顺序排列的至少一个参考语言的词性标签;标注单元,用于将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语;以及最大名词短语确定单元,用于在目标语言语句中将与至少一个最大名词短语模板中的任一个相符的短语确定为最大名词短语,其中,每个最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
根据本发明的另一个方面,还提供了一种用于提取最大名词短语的方法,该方法包括:在待处理的目标语言语句的参考语言译句中,确定与至少一个名词短语模板中的任一个相符的参考语言名词短语,其中,每个名词短语模板包括按其对应的预定顺序排列的至少一个参考语言的词性标签;将名词短语标签标注给目标语言语句中的与确定的参考语言名词短语相对应的目标语言名词短语;以及在目标语言语句中将与至少一个最大名词短语模板中的任一个相符的短语确定为最大名词短语,其中,每个最大名词短语模板包括按其对应的预定顺序排列的至少一个目标语言的词性标签和/或至少一个名词短语标签。
根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的用于提取最大名词短语的装置。
根据本发明的又一个方面,还提供了一种存储有机器可读取的指令代码的程序产品,上述程序产品在执行时能够使上述机器执行如上所述的用于提取最大名词短语的方法。
此外,根据本发明的其他方面,还提供了一种计算机可读存储介质,其上存储有如上所述的程序产品。
上述根据本发明实施例的用于提取最大名词短语的装置、方法以及电子设备,其首先利用参考语言(如英语)的名词短语模板来确定参考语言名词短语,并在此基础之上再利用目标语言(如汉语)最大名词短语模板来确定目标语言最大名词短语,从而通过分层次的双级处理实现了最大名词短语的确定,能够获得至少以下益处之一:处理结果的准确度较高;处理的复杂度较低;基于双语对齐语料库构建的参考语言名词短语模板能够较为准确地反映名词短语的特性;利用上述基于双语对齐语料库构建的参考语言名词短语模板所进行的例如名词短语提取之类的数据处理的处理精度也比较高,效果较好;基于确定了名词短语和最大名词短语的目标语言语料库构建的目标语言最大名词短语模板能够较为准确地反映最大名词短语的特性;以及利用上述基于确定了名词短语和最大名词短语的目标语言语料库构建的目标语言最大名词短语模板所进行的例如最大名词短语提取之类的数据处理的处理精度也比较高,效果较好。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示意性地示出根据本发明的实施例的用于提取最大名词短语的装置的一种示例结构的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310084666.5/2.html,转载请声明来源钻瓜专利网。