[发明专利]文本中数字和特殊符号串的文字符号化处理方法及系统有效

申请号：	200610165633.3	申请日：	2006-12-08
公开（公告）号：	CN101196881A	公开（公告）日：	2008-06-11
发明（设计）人：	郭庆;片江伸之	申请（专利权）人：	富士通株式会社
主分类号：	G06F17/28	分类号：	G06F17/28;G06F17/30
代理公司：	北京三友知识产权代理有限公司	代理人：	任默闻
地址：	日本神奈***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本数字特殊符号文字符号化处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及对自然语言文本中复杂形式的数字和特殊符号进行文字符号化的处理技术，具体的讲是一种文本中数字和特殊符号串的文字符号化处理方法及系统。

背景技术

在自然语言文本中，数字和特殊符号(包括外来语符号，例如汉语中的英文字母)作为自然语言系统中的基本符号广泛且大量地存在着。以汉语为例，在人民日报1998年的语料中，大约25％的句子中存在着数字或特殊符号。在信息处理领域中，许多与自然语言处理技术相关的应用如自然语言理解、机器翻译、语音合成等，都需要能够对自然语言文本中可能存在的数字、特殊符号串进行准确的理解，在理解的基础上对其中的数字或特殊符号进行文字符号化处理，即将数字或特殊符号转换为与其等价的文字。在语音合成系统中，在对数字或特殊符号进行文字符号化处理的基础上，还要进行字转音的处理，并根据数字、特殊符号串的结构加上适当的词边界或者更高一级的韵律词边界，从而使得语音合成的声音更自然。因此，对于许多与自然语言处理技术相关的应用中，一个有效的数字、特殊符号文字符号化处理系统是必需的。

数字和特殊符号由于广泛地存在于自然语言文本中，因此也形成了许多常用的固定格式。就数字而言，在不同的上下文语境中，或是在不同的习惯用法结构中，有两种可能的读法，一种是数值读法，另外一种是电报读法。以汉语为例，“130”用于描述数量例如“这台高速打印机一分钟可以打印130页纸”时，读作“一百三十”，而在“130医院”或“130钻井队”这样的语境中读作“幺三零”。又如“70年”，作为独立的语法单元，其本身就有歧义性，可以是“七零年”(表示1970年)，也可以是“七十年”(表示时间段)。此时，往往需要在更广、更深的层次例如段落、篇章上下文分析或者语义理解的基础上来对其进行准确的文字符号化处理。

特殊符号的语用形式更是多种多样，对于特殊符号的文字符号化，存在两方面的问题。一方面是其用法的多样性，另外一方面是由此带来的可能的歧义性。以汉语为例，“-”、“/”和“：”是三个常用的符号。由于它们可以作为不同的语用手段出现在很多固定格式中，因此它们也是很难被计算机正确理解的。这些特殊符号经常是伴随数字一起出现的，更进一步，有的时候这些特殊符号、数字中间会夹杂着汉字一起出现，它们组合在一起构成一个大的语法单元。例如：“2000元/月”，“16日-19日”，“3个月-6个月”，“波音-747”，“电话：65992238 65993388-1826、1828”等。特殊符号的歧义性也是必须要解决的问题之一，例如“：”在下面三句话中起着不同的语用作用，在例句1和例句3中“：”应该文字符号化为“比”，在例句2中应该文字符号化为“点”。

例句1：实行6∶2∶2的结构工资制

例句2：7月21日晚上19:30分

例句3：她击败对手的比分为6∶2、5∶7和7∶5

关于自然语言文本中复杂形式的数字和特殊符号进行文字符号化的处理存在多篇现有文献，特将美国专利6,721,697(Duan；Lei；Franz；Alexander；Horiguchi；Keiko；April 13，2004，Method and system for reducing lexicalambiguity)；

美国专利6,266,642(Franz；Alexander M.；Horiguchi；Keiko；July 24，2001，Method and portable apparatus for performing spoken language translation)；

美国专利6,826,568(Bernstein；Philip A.；Madhavan；Jayant；November 30，2004，Methods and system for model matching)；

美国专利5,930,756(Mackie；Andrew William；Miller；Corey Andrew；Karaali；Orhan；June 23，1997，Method，device and system for a memory-efficientrandom-access pronunciation lexicon for text-to-speech synthesis)；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于富士通株式会社，未经富士通株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200610165633.3/2.html，转载请声明来源钻瓜专利网。

上一篇：用于在金属基底上制备铬－锆涂层的组合物和方法
下一篇：用于锻造的方法和设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文本中数字和特殊符号串的文字符号化处理方法及系统有效

专利文献下载