[发明专利]应用于手机短信查询的拼音纠错技术及装置无效
| 申请号: | 200810112606.9 | 申请日: | 2008-05-26 |
| 公开(公告)号: | CN101287228A | 公开(公告)日: | 2008-10-15 |
| 发明(设计)人: | 赵楠;张皖;胡啸 | 申请(专利权)人: | 北京捷讯畅达科技发展有限公司 |
| 主分类号: | H04Q7/32 | 分类号: | H04Q7/32;H04M1/21 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100052北京市东城区海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 应用于 手机短信 查询 拼音 纠错 技术 装置 | ||
技术领域
本发明属于手机扩展功能技术领域,特别涉及一种应用于手机短信查询的拼音纠错技术及装置。
背景技术
目前在短信上的应用服务由于不具备自然语言处理技术,只能是简单的定制服务等,用户需要学会发送代码等特定信息才能进行简单的应用。而对于搜索和路径这种用户需求复杂的应用,这种方式远远不能满足要求,还会因为繁琐的操作步骤造成不好的用户体验。
手机用户的一个特点为手机输入法带来的输入的错误率较高的问题,目前手机上输入方法大部分为拼音输入,而且在词组数量、易用性方面远远不如电脑上的输入法,这就造成很多用户在输入的时候因为操作失误或者为了快捷,使用音似的错别字或词。如经常可以发现类似这样的短信“直到(知道)到东直门怎么走不?”。在本地搜索和路况导航的应用中,这种情况出现的更多,因为大部分的地名、路名都不在输入法的词库中,用户为了方便往往用常用的音似词组代替,在很多情况下,用户甚至也不知道某个地名、路名的正确写法,只是知道读音,而且路名、地名中有较多的生僻字,用户不知道如何输入,只能用音似字或形似字代替。如“海龙大厦”,用户可能会输入成“海隆大厦”。“婺源”用户可能会输入成“无缘”或者“蝥源”。在系统层面上,传统的短信查询系统采用基于关键字或者基于指令的搜索技术,给用户带来了很大的不便,而上述过程在应用层面上很好的解决了这个问题。
发明内容
本发明的目的在于,对手机用户通过自然语言文本输入的文本进行拼音纠错。
为了实现上述目的,本发明提供了一种应用于手机短信查询的拼音纠错技术,包含:步骤一:查找实体的同音、近音实体,对同音或近音错别字进行匹配纠错;步骤二:查找实体的模糊音实体,对模糊音进行匹配纠错;步骤三:查找实体的形似扩展词,对缩写词进行匹配纠错。
本发明还提供一种应用于手机短信查询的拼音纠错装置,包含:查找实体的同音、近音实体,对同音或近音错别字进行匹配纠错的同音纠错模块;查找实体的模糊音实体,对模糊音进行匹配纠错的模糊音纠错模块;查找实体的形似扩展词,对缩写词进行匹配纠错的缩写纠错模块。
本发明提供的技术方案的有益效果是:针对手机输入的特点,对地名的识别应用拼音纠错的技术以及缩写识别的技术,解决了用户不知道地名具体写法或者地名包含生僻字时的问题,并方便用户可以不用记住地名的完整名称,更符合用户习惯。通过本发明,用户自然语言输入的查询语句,变成了系统能理解的,由系统所掌握的地理实体词构成的一个联合查询,便于后面的地理导航系统的进一步处理。
附图说明
图1为本发明的自然语言处理技术流程图;
图2为本发明的拼音纠错技术流程图;
图3为本发明的拼音纠错装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明提供一种应用于手机短信查询的拼音纠错技术,是基于自然语言处理技术的另一手机短信息查询纠错方法。图1为本发明的自然语言处理技术流程图。首先,阐释所述自然语言处理技术,其处理过程为:手机用户输入自然语言文本查询语句(步骤S101),如“从机场到海隆大厦怎么走?”分词模块进行处理,借助常用词词典将自然语言文本分割成常用词(步骤S102),该句被分割为“从/机场/到/海/隆/大厦/怎么/走/?/”。然后,文本被发送到词性标注模块,该模块借助词性词典及特征词典,将常用词标注词性及特征(步骤S103),如“机场”被标注为“通用地名”,“到”被标注为动词,通过这样的步骤,我们可以理解句子的结构,如主谓宾等;利用句法特征和常用词特征辅助对查询语句的分类。再通过问句领域识别模块,借助领域特征词典及领域问法特征词典,将属于“交通信息”的自然语言文本分发到实体识别模块,这个步骤需要结合疑问词特征,如是否包含“哪里”、“怎么”,动词特征,如“走”“到”“去”,以及常用词领域特征,如“通用地名”、“常用人名”等,理解查询语句中的简单语义,根据语义特征对文本进行分类(步骤S104)。将属于“交通信息”的文本发送到实体识别模块,借助领域相关实体词典,识别出可能的领域实体(步骤S105)。上述问题中的“机场”、“海隆大厦”被识别出。之后,在实体匹配模块中进行实体匹配,利用POI实体词典,识别出正确的实体的词和可能是实体的词串(步骤S106),经过此步,所有地名和可能的地名实体都被识别,如“王府井”,“东四环”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷讯畅达科技发展有限公司,未经北京捷讯畅达科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810112606.9/2.html,转载请声明来源钻瓜专利网。





