[发明专利]一种基于用户语言背景的文本转换装置无效
申请号: | 200910148894.8 | 申请日: | 2009-06-19 |
公开(公告)号: | CN101930429A | 公开(公告)日: | 2010-12-29 |
发明(设计)人: | 刘宏建;周泉;国德峰;永松健司 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 郭海彬 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 语言 背景 文本 转换 装置 | ||
技术领域
本发明涉及语言文本的处理技术,特别是涉及一种基于用户语言背景的文本转换装置。
背景技术
在日常应用中存在着大量的非规范型文本(非正常文字文本),例如日期、时间、电话号码、外文等,还包括一些由各种符号等混合形态组成的非规范型文本。非规范型文本非常便于人们理解与输入,但其对于计算机类电子处理装置来说却难于进行处理,像电子词典、PDA(个人数字助理)、语言学习机等电子处理装置在遇到此类的文本时,通常先将非规范型文本转化为规范文本,然后再按照正常的文本进行处理。同时对于语音合成发音系统来说,由于非规范文本无法直接发音,也必须首先转换成规范型文本。
但在实际应用中,这种转换不具有一一对应特性。一种非规范文本可能对应多种规范文本。在很多情况下,根据人们的语言背景、个人习惯等非规范文本可以具有不同的转换形式。在这种一对多的情况下,用户希望计算机可以根据自身的语言特点自动找到最正确的转换。
在另外一些情况下,对于很多非母语的语言学习用户,在语言学习过程中用户希望能够获得最佳的规范型文本转换,以便达到学习的目的。在实际应用中,存在很多单一的转换答案,虽然通过类似电子词典的装置可以获得正确的转换形式,但是却很难给读者带来非常深刻的记忆。除此之外,在一句话中可能存在多种可以转换的形式,但是在这些转换形式中某些形式容易出错,而有一些却相对不容易出错。在这种情况下,用户希望能够根据易转换错误的程度得到提醒。
同时由于不同国家的用户的转换习惯不同,在一个国家中很容易正确的转换形式对另一个国家的用户来说可能是非常困难的。这种情况常发生在母语背景不同的用户身上。同样的现象也常常出现在同一个国家的不同地区,由于一个国家内具有不同的方言,一个地区很容易正确转换形式对另一个地区的用户来说也可能是非常困难的。在这些情况下就需要针对不同国家、不同地区的用户给予必要的提醒信息。
在现有的非规范文本转换技术中,存在着“使用上下文无关文法的文本规范化方法”,其对通过语音识别器输出的文本进行规范化,使用上下文无关文法对文本进行语法分析,并使规范化简单易行。虽然上述方法涉及到文本规范化的方法,但是仅仅是将非规范型的文本转化为规范型文本,并不能根据用户的语言特点进行自动选择,更不能给用户提供相应的提醒内容。
综上所述,需要有一种方法及装置根据用户的语言背景进行非规范文本与规范文本之间的转换,同时提醒用户易转换错的内容。
发明内容
本发明实施例的目的是提供一种基于用户语言背景的文本转换装置,能根据用户的语言特点选择出最佳的转换结果。
为了实现上述目的,一方面,提供了一种基于用户语言背景的文本转换装置,包括:
用于获取输入文本和用户语言背景的输入单元;
存储字典和多个转换语料库的存储单元;
利用所述字典对所述输入文本进行分词并找到分词结果中的非规范文本的分析单元;
根据所述输入单元获取的用户语言背景从所述多个转换语料库中取得对应所述用户语言背景的适用语料库的选择单元;
根据所述适用语料库将所述非规范文本转换为规范文本的转换单元;
输出所述规范文本的输出单元。
优选地,上述的文本转换装置中,所述多个转换语料库包括通用转换语料库和母语习惯转换语料库。
优选地,上述的文本转换装置中,
所述存储单元中还存储有多个易转换错语料库;所述选择单元,还用于根据用户的选择从所述多个易转换错语料库中取得适用用户语言背景的适用易转换错语料库;
并且,所述文本转换装置还包括:
强调分析单元,用于根据所述分词字典对输入的非规范文本进行分析,得到强调分析结果;
强调结果单元,用于根据所述适用易转换错语料库和所述强调分析结果,对所述非规范文本进行转换,得到强调结果;
所述输出单元,还用于输出所述强调结果。
优选地,上述的文本转换装置中,
所述多个转换语料库还包括:用户个人习惯转换语料库;
所述多个易转换错语料库包括:通用易转换错语料库、用户个人习惯易转换错语料库和/或母语习惯易转换错语料库;
所述规范文本为多个,并且所述输出单元对所述多个规范文本进行排序输出;
所述强调结果为多个,并且所述输出单元对所述多个强调结果进行排序输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910148894.8/2.html,转载请声明来源钻瓜专利网。