[发明专利]一种利用语音查询汉字的字典检索方法及系统在审
申请号: | 201710312776.0 | 申请日: | 2017-05-05 |
公开(公告)号: | CN107169067A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 范剑淼;孔祥顺 | 申请(专利权)人: | 上海明数数字出版科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G10L15/22;G10L15/26 |
代理公司: | 上海愉腾专利代理事务所(普通合伙)31306 | 代理人: | 唐海波 |
地址: | 201207 上海市浦东新区自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 语音 查询 汉字 字典 检索 方法 系统 | ||
技术领域
本发明涉及电子字典检索方法,尤其涉及一种利用语音查询汉字的字典检索方法及系统。
背景技术
传统的纸质字典检索是利用拼音或部首的方式进行检索。而随着人们工作、学习方式的改变以及移动互联网技术的快速发展,目前人们学习的方式正由传统的纸质逐渐转向电子式学习,通过移动终端进行电子式学习,使人们可以随时随地的学习,为此纸质字典也进行了电子字典的拓展。
现有的中文电子字典查询方法需要先输入待查询的字,才能查到该字的解释,不会拼音、输入法选字繁琐等都会给检索造成不便甚至不能完成检索,因而市场需要电子字典检索的进一步改进,或出现一种新的检索方式;
已经出现的有语音识别进行检索的方式。然而,中文拼音有4个单调,汉字、拼音、音调、语境造就了中文的博大精深,但这也不可避免的形成了不同的汉字的拼音和音调一致,也就是所谓的同音字,中文的汉字因此有很多都具有同音字。比如在商务印书馆出版的第11版《新华字典》中,经官方统计,共收录了包括繁体字和异体字在内的共计约13720个汉字,而汉字的不带声调的音节数量约为416个,即使带声调后的音节也只有1327个。根据不带声调的音节归并同音字,那么13720个汉字中的12794个汉字以音节进行查询时都会有超过10个以上的同音字作为目标待查汉字的干扰项,其中最多的一个有300个以上的同音字。
通过识别单个目标汉字发音的方式来输入目标待查汉字时,会由于大量同音字的存在而出现输入效率低下的问题。
而对于一本字典,字是其最重要的查询项,现有的字典只能提供词语或句子的语音输入查询,针对单个汉字的语音输入查询因为效率较低而较少使用。
一般的单音节检索方法,根据候选字的常见频率来展示候选字,这种展示对于词典用户效果不佳,原因是大部分字典使用者都是想查低频字、不认识或生僻字等非常见的字;因此一个更准确的理解用户查词目的,以尽量减少用户候选字数量的方法非常有必要,如何快速的筛选出待查汉字提高检索效率也十分必要。
发明内容
鉴于目前存在的上述不足,本发明提供一种利用语音查询汉字的字典检索方法及系统,能够在线语音识别检索对应的汉字,利用含有目标待查汉字的词语、短语或句子的方式进行查询,大大提高了检索的效率,检索速度快,便捷性高。
为达到上述目的,本发明的实施例采用如下技术方案:
一种利用语音查询汉字的字典检索方法,所述利用语音查询汉字的字典检索方法包括以下步骤:
获取含有目标汉字的语音输入信息;
对语音输入信息进行识别并匹配出候选汉字;
从候选汉字中选择目标汉字进行检索。
依照本发明的一个方面,所述含有目标汉字的语音输入信息为:含有目标汉字的词语或短语或句子语音。
依照本发明的一个方面,所述获取含有目标汉字的语音输入信息包括:通过语音输入模块提示用户输入含目标汉字的词语或短语或句子语音,并通过该语音输入模块获取用户输入的语音信息。
依照本发明的一个方面,所述对语音信息进行识别并匹配出候选汉字包括:
对所述语音输入信息进行语音识别处理,以获得与所述语音输入信息相对应的语言字符串;
根据所述语言字符串,在与对应的输入词库中进行匹配查询,以获得与所述语言字符串相匹配的一个或多个输入候选文本;
将所述一个或多个输入候选文本中至少一个提供给用户为候选汉字。
依照本发明的一个方面,所述对语音信息进行识别并匹配出候选汉字包括:
进行语音识别,获得一段最大可能性的词语、短语或者句子的汉字序列;
将该汉字序列的重复汉字过滤得到一个不重复的汉字序列;
将该汉字序列在前端输出为候选汉字。
依照本发明的一个方面,所述对语音信息进行识别并匹配出候选汉字包括:
进行语音识别,获得一段最大可能性的词语、短语或者句子的汉字序列;
将该汉字序列的重复汉字过滤得到一个不重复的汉字序列;
将获得的汉字序列转换成一组或多组音节序列;
将该音节序列与已构建的词语库、短语库内词语或短语的音节序列进行匹配;
将最开始识别出的汉字连同映射匹配的同音节词语或短语中的汉字一同在前端输出为候选汉字。
依照本发明的一个方面,所述从候选汉字中选择目标汉字进行检索包括:如候选汉字中有目标汉字,则选择目标汉字进行查字;如候选汉字中无目标汉字,则重新输入语音进行识别,直至候选汉字中有目标汉字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明数数字出版科技有限公司,未经上海明数数字出版科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710312776.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于kd树和多值决策图的时序图数据处理方法
- 下一篇:轿厢媒体机换图方法