[发明专利]非正常文本识别方法及其系统在审
申请号: | 201210264218.9 | 申请日: | 2012-07-27 |
公开(公告)号: | CN103576882A | 公开(公告)日: | 2014-02-12 |
发明(设计)人: | 何小晨;张国强;郝志新;许春林;王长伟 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F17/21 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王茹;黄晓庆 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 正常 文本 识别 方法 及其 系统 | ||
技术领域
本发明涉及文本识别技术领域,特别是涉及一种非正常文本识别方法,以及一种非正常文本识别系统。
背景技术
垃圾文本过滤一直是搜索引擎中一项重要的技术环节,所述垃圾文本通常指无意义的非正常文本,传统的垃圾文本过滤通过关键词的查找和文本质量分的计算,可以过滤掉一些广告内容、色情内容、政治敏感内容、内容重复的差格式文本、非规范字符过多的差格式文本等等。
然而,在微博和空间说说等短文本搜索中,我们发现有一定量的由随机输入产生的非正常文本(也称垃圾文本),例如:“撒娇的拉萨科技大实际道路卡萨军等垃圾哦大搜打碎了均达拉斯加达拉斯加萨顿水等”。这类非正常文本的特性是:内容有一定随机性,重复词条较少;概念词较多,按照以往的文本过滤技术计算的文本质量分通常不低;由于输入法的联想输入特性,相邻词之间往往有一定相关度,难以通过语义分析过滤。基于以上特性,这类非正常文本很难通过传统的文本过滤方法加以区分。
发明内容
针对上述背景技术中存在的问题,本发明的目的在于提供一种能够有效地识别随机输入产生的非正常文本的非正常文本识别方法,以及一种非正常文本识别系统。
一种非正常文本识别方法,包括以下步骤:
根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;
根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。
一种非正常文本识别系统,包括:
按键获取模块,用于根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;
识别模块,用于根据各个所述文字输入的首字母所对应的按键在键盘上的分布情况,将所述待识别文本划分为正常文本或者非正常文本。
本发明的非正常文本识别方法及其系统,通过获取在相应的输入法下,待识别文本中的各个文字输入的首字母所对应的按键,判断所述按键在键盘上的分布情况。因为随机输入的无意义的非正常文本通常是点击在键盘上较集中的区域的若干按键输入的,所以通过所述文字输入时的首字母对应的按键在键盘上的分布情况,可以有效地识别出大部分随机输入的无意义、非正常文本。并且,因为识别方法并不依赖于词义,文本质量分的计算,使识别结果更加客观准确。
附图说明
图1是本发明非正常文本识别方法第一实施方式的流程示意图;
图2是本发明非正常文本识别方法第一实施方式中步骤S102的局部流程示意图;
图3为本发明的非正常文本识别方法中一种键盘分区的设定方式的示意图;
图4是本发明非正常文本识别方法第二实施方式中步骤S102的局部流程示意图;
图5是本发明非正常文本识别方法第三实施方式中步骤S102的局部流程示意图;
图6是本发明非正常文本识别系统第一实施方式的结构示意图;
图7是本发明非正常文本识别系统的第一实施方式中识别模块的结构示意图;
图8是本发明非正常文本识别系统的第二实施方式中识别模块的结构示意图;
图9是本发明非正常文本识别系统的第三实施方式中识别模块的结构示意图。
具体实施方式
请参阅图1,图1是本发明非正常文本识别方法第一实施方式的流程示意图。
所述非正常文本识别方法,包括以下步骤S101和S102:
S101,根据待识别文本中的各个文字,获取各个所述文字输入的首字母所对应的按键;
其中,所述待识别文本即是需要进行识别的文本。所述待识别文本中的文字包括中文字,英文字母,数字、符号等,也可以是其中的一种或者多种的组合。特别地,本发明对于由中文汉字组成的文本具有较好的识别效果。
而所述待识别文本优选为长度大于某预设值的文本,即其包含的文字个数最好超过一定的数量,因为文本越短,包含的文字越少,正常和非正常文本间的界限越模糊,识别的难度越大。因此在实际执行本发明的非正常文本识别方法时,可以预先设定对文本要求的最小长度,对文本长度大于所述最小长度的,才执行本发明的非正常文本识别方法,否则不执行所述非正常文本识别方法。
所述文字输入的首字母所对应的按键,即是在输入每一个所述文字时第一个点击的按键,例如英文字母输入计算机时,首字母对应的按键即为所述英文字母所在的按键。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210264218.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:矿用水管、风管快速连接装置
- 下一篇:法兰