[发明专利]文本匹配过滤方法及装置在审
申请号: | 201310753277.7 | 申请日: | 2013-12-31 |
公开(公告)号: | CN104750673A | 公开(公告)日: | 2015-07-01 |
发明(设计)人: | 粟栗;张峰 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 过滤 方法 装置 | ||
1.一种文本匹配过滤方法,其特征在于,包括:
将被测文本中的字符进行独立分割,得到分割后的字符串;
将分割后的字符串中的字符分别与倒排字库中的关键字符进行匹配;所述倒排字库是对输入的关键字进行逐字符分解并记录每个关键字符在所述关键字中的位置信息后形成的;
按照设定的模糊度确定规则,确定匹配成功的每个关键字中关键字符匹配时用到的模糊度值,得到每个关键字的匹配模糊度;
根据每个关键字的匹配模糊度,确定输入的关键字的平均模糊度,根据所述平均模糊度确定所述被测文本是否符合过滤条件。
2.如权利要求1所述的方法,其特征在于,形成到排字库的过程,具体包括:
对输入的关键字进行顺序编号,形成关键字库;
对关键字库中的每个关键字进行逐字符分解,为分解后得到的每个关键字符建立位置信息集合;所述位置信息集合中包括关键字符、关键字符所属的关键字编号、关键字符在所属关键字中的字符位。
3.如权利要求1所述的方法,其特征在于,将分割后的字符串中的字符分别与倒排字库中的关键字符进行匹配,具体包括:
依次获取分割后的字符串中的字符,针对获取的字符:
遍历倒排字库中的关键字符,当有与获取的字符相匹配的关键字符时,记录匹配成功的字符所属的关键字以及在所属关键字中的字符位。
4.如权利要求1所述的方法,其特征在于,得到每个关键字的匹配模糊度的过程,具体包括:
根据匹配成功的关键字中匹配成功的字符所属的关键字以及在所属关键字中的字符位,针对每个匹配成功的关键字,确定该关键字中匹配成功的各关键字符的字符位之间的字符位间隔,根据确定出的字符位间隔,确定关键字符匹配时用到的模糊度值,得到所述匹配模糊度。
5.如权利要求4所述的方法,其特征在于,根据确定出的字符位间隔,确定关键字符匹配时用到的模糊度值,得到所述匹配模糊度,具体包括:
获取设定的模糊度确定规则中规定的字符位间隔与模糊度值的对应关系,确定匹配成功的关键字中匹配成功的关键字符的字符位间隔的最大值,查找到字符位间隔的最大值所对应的模糊度值,作为关键字的匹配模糊度。
6.如权利要求1-5任一所述的方法,其特征在于,确定所述被测文本是否符合过滤条件的过程,具体包括:
将得到的所述平均模糊度预设定的文本模糊度阈值进行比较,当所述平均模糊度不大于所述文本模糊度阈值时,确定所述被测文本符合过滤条件。
7.一种文本匹配过滤装置,其特征在于,包括:
关键字倒排模块,用于对输入的关键字进行逐字符分解并记录每个关键字符在所述关键字中的位置信息后形成的倒排字库;
文本处理模块,用于将被测文本中的字符进行独立分割,得到分割后的字符串;
模糊匹配模块,用于将分割后的字符串中的字符分别与倒排字库中的关键字符进行匹配;以及按照设定的模糊度确定规则,确定匹配成功的每个关键字中关键字符匹配时用到的模糊度值,得到每个关键字的匹配模糊度;
过滤判断模块,用于根据每个关键字的匹配模糊度,确定输入的关键字的平均模糊度,根据所述平均模糊度确定所述被测文本是否符合过滤条件。
8.如权利要求7所述的装置,其特征在于,所述关键字倒排模块,具体用于:
对输入的关键字进行顺序编号,形成关键字库;
对关键字库中的每个关键字进行逐字符分解,为分解后得到的每个关键字符建立位置信息集合;所述位置信息集合中包括关键字符、关键字符所属的关键字编号、关键字符在所属关键字中的字符位。
9.如权利要求7所述的装置,其特征在于,所述模糊匹配模块,具体用于:
依次获取分割后的字符串中的字符,针对获取的字符:
遍历倒排字库中的关键字符,当有与获取的字符相匹配的关键字符时,记录匹配成功的字符所属的关键字以及在所属关键字中的字符位。
10.如权利要求7所述的装置,其特征在于,所述模糊匹配模块,具体用于:
根据匹配成功的关键字中匹配成功的字符所属的关键字以及在所属关键字中的字符位,针对每个匹配成功的关键字,确定该关键字中匹配成功的各关键字符的字符位之间的字符位间隔,根据确定出的字符位间隔,确定关键字符匹配时用到的模糊度值,得到所述匹配模糊度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310753277.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海量数据的处理方法及装置
- 下一篇:接口装置