[发明专利]词语识别方法及装置有效
申请号: | 201210570618.2 | 申请日: | 2012-12-17 |
公开(公告)号: | CN103870822B | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 郑大念 | 申请(专利权)人: | 捷讯平和(北京)科技发展有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 上海隆天律师事务所 31282 | 代理人: | 臧云霄;钟宗 |
地址: | 100015 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 识别 方法 装置 | ||
1.一种词语识别方法,包括:
S11:对词语中的每个单字进行识别,并分别记录识别结果中关于每个单字的置信度最高的前若干个识别的候选字及其对应的置信度;
S12:搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;
S13:针对每个常用词,根据由步骤S12得到的该常用词中所有单字的置信度,计算该常用词中所有单字的置信度的均值,并将该均值作为该常用词的置信度;
S14:若置信度最高的常用词的置信度大于一阈值,则输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。
2.根据权利要求1所述的方法,其中,使用光学字符识别(OCR)对所述单字进行识别。
3.根据权利要求1或2所述的方法,其中,搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。
4.根据权利要求3所述的方法,其中,当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。
5.根据权利要求1或2所述的方法,其中,仅搜索与被识别的词语字数相同的常用词。
6.根据权利要求5所述的方法,其中,搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。
7.一种词语识别装置,包括:
单字识别单元,用于对词语中的每个单字进行识别,并分别记录识别结果中关于每个单字的置信度最高的前若干个识别的候选字及其对应的置信度;
常用词搜索单元,用于搜索每个常用词的各单字是否在所述词语的单字的候选字中出现,若出现,则记录该单字的在该常用词中的该候选字的置信度,若未出现,则将该字的置信度计为零;
置信度计算单元,用于针对每个常用词,根据由所述常用词搜索单元得到的该常用词中所有单字的置信度,计算该常用词中所有单字的置信度的均值,并将该均值作为该常用词的置信度;
输出单元,若置信度最高的常用词的置信度大于一阈值,输出单元输出这个常用词作为该词语的识别结果,否则输出该词语的每个单字的置信度最高的候选字作为该词语的识别结果。
8.根据权利要求7所述的装置,其中,所述单字识别单元包括光学字符识别(OCR)引擎。
9.根据权利要求7或8所述的装置,其中,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的所有单字的所有候选字中出现。
10.根据权利要求9所述的装置,其中,该常用词搜索单元被配置为当某个常用词中的某个单字在被识别的词语中的某个单字的候选字中出现时,将不在该被识别的词语中的该单字的候选字中搜索该常用词中的其他单字。
11.根据权利要求7或8所述的装置,其中,该常用词搜索单元被配置为仅搜索与被识别的词语字数相同的常用词。
12.根据权利要求11所述的装置,其中,该常用词搜索单元被配置为搜索每个常用词的各单字是否在所述词语的与该常用词中相同位置的单字的候选字中出现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于捷讯平和(北京)科技发展有限公司,未经捷讯平和(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210570618.2/1.html,转载请声明来源钻瓜专利网。