[发明专利]页面即时翻译系统及页面即时翻译方法无效
申请号: | 201210161919.X | 申请日: | 2012-05-23 |
公开(公告)号: | CN102681986A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 董名垂;费晓磊 | 申请(专利权)人: | 董名垂;费晓磊 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 珠海智专专利商标代理有限公司 44262 | 代理人: | 林永协 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 即时 翻译 系统 方法 | ||
技术领域
本发明涉及图像处理领域,尤其是一种包含有图像处理技术的页面即时翻译系统以及页面即时翻译方法。
背景技术
随着互联网技术应用的普及,人们从互联网上获得的信息量越来越大,由于不同网页上显示的文字往往是多种不同的语言,这样给网页的浏览带来极大的不便,因此需要对页面上不同的语言进行即时翻译,以便浏览者及时了解页面所公告的信息,但现有不少对页面即时翻译的方法都存在不足。
现有HTML网页主要由文本加上HTML格式标签构成,格式标签是嵌入在文本内的,如果翻译时直接将源文件根据格式标签分成几个部分,很可能会将完整的内容切割成不完整的几部分,从而导致无法准确翻译原文。因此,在翻译时需要将整个页面当作一个整体而不是分成单独的几个部分。
现有的页面即时翻译方法是首先分别标记HTML格式标签和文本,分别翻译文本和格式标签,然后翻译系统比较翻译前后的文本以及格式标签,如果格式标签在翻译前后的文本中的位置一致,那么将对应的格式标签设置在翻译前的文本对应的位置,如果不一致,翻译系统需要找出格式标签在翻译后的文本中对应的位置,并添加上必要的格式标签。
并且,由于不同的HTML网页由不同的语言编写而成,相同的格式标签通常有不同的表示方法,因此翻译系统需要识别这些不同语言编写的格式标签,并将这些格式标签转换成翻译系统能够输出的格式标签表示方式。
由于现在网页开发技术日新月异,每时每刻都有新的格式标签出现在网页源代码之中。并且,已有的格式标签所构成网页的版面也会无时不刻地变化,这就要求网页即时翻译系统能不断地更新网页版面识别模块,这不仅降低了翻译的效率还增加了翻译系统后期维护的难度。因此,随着网页技术的快速发展,很容易导致翻译系统因不能识别网页版面格式而出现翻译出错的情况。
公开号为CN101576878A的中国发明专利申请公开了一种名为“用户勾圈网页即时翻译系统及方法”的发明创造,该翻译系统具有勾圈截屏模块、字符识别模块、双语翻译模块、翻译结果显示模块等。勾圈截屏模块根据使用者的操作截取图像,并由字符识别模块是否所截取图像内的字符,由双语翻译模块对字符进行翻译,最后由翻译结果显示模块将翻译的结果显示出来。该方法通过截取图像的方法来避免对HTML网页源代码中的标签格式进行识别,提高了即时翻译的效率也降低翻译系统后期的维护难度。
但是,如何识别所截取图像中包含的字符是翻译系统的难题,对字符识别的精确度往往决定了后续翻译的准确性,因此有需要提供一种能够对图像中的字符有效准确识别的装置和方法。
发明内容
本发明的主要目的是提供一种能对图像中的字符进行精确识别的页面即时翻译系统。
本发明的另一目的是提供一种翻译准确率较高的页面即时翻译方法。
为了实现上述的主要目的,本发明提供的页面即时翻译系统包括用于截取页面中指定区域的图像的图像截取模块、用于获取图像内的字符的字符获取模块、用于对所获取的字符进行识别的字符识别模块、用于将被识别的字符翻译成指定的语言的翻译模块以及用于显示翻译模块输出的翻译结果的显示模块,其中,字符获取模块具有图像识别模块,通过对从图像的中心作出的至少一条射线上的像素灰度值进行统计,判别图像的布局;以及字符区域确定模块,根据图像的顶点的像素颜色确定图像的背景颜色,并对图像的所有像素进行逐行扫描,标记包含有非背景颜色像素的行,对被标记的行进行逐列扫描,标记非背景颜色的像素,将被标记的像素中灰度值大于或等于背景颜色灰度值的像素识别为字符区域。
由上述方案可见,字符获取模块获取图像内的字符,通过对图像内的行与列进行扫描,获取非背景颜色的像素,通过这些像素的集合来获取字符区域以及字符的形状,再由字符识别模块使用诸如光学字符识别技术对获取的字符进行识别,进而完成对字符的识别。这样,翻译系统对字符快速且精确地识别,能够提高翻译系统翻译的准确性。
一个优选的方案是,字符获取模块还具有图像分割模块,根据图像识别模块判别的图像的布局将图像分割为二个以上的第一子图像。
由此可见,对图像划分为多个子图像,并对每一子图像内的字符进行识别,这样有利于翻译系统准确地对字符进行识别。
进一步的方案是,字符获取模块还具有图像区域确定模块,在判断图像多个顶点的像素颜色不一致情况下,以每一顶点为起始点,将未被合并的与顶点具有连续性的且与相邻像素的灰度值的差值小于阈值的像素合并形成颜色区域,将颜色区域扩充至矩形区域形成第二子图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于董名垂;费晓磊,未经董名垂;费晓磊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210161919.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控制装置及移动终端
- 下一篇:高空作业平台延伸机构打开装置