[发明专利]一种变异关键词的提取方法无效
申请号: | 200810045712.X | 申请日: | 2008-07-31 |
公开(公告)号: | CN101324883A | 公开(公告)日: | 2008-12-17 |
发明(设计)人: | 傅彦;陈安龙;周俊临;尚明生;史伟;王全礼;关娜 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市路盛律师事务所 | 代理人: | 温利平 |
地址: | 611731四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 变异 关键词 提取 方法 | ||
1、一种变异关键词的提取方法,其特征在于,包括以下步骤:
(1)、如果分词后文本中有非汉字噪音符号,则将分词后文本中其区位码属于01-09区内的特殊字符去掉,从而去除分词后文本中的非汉字噪音符号,然后进行下一步,否则,直接进行下一步;
(2)、建立关键词库,将分词后文本送到关键词库中进行匹配,如果匹配成功,则提取,否则,进行下一步;
(3)、建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成对应的整数,从而将其从字符串转换为文本整数串;将步骤(2)中的关键词库中的所有关键词通过拼音文件也转换为关键词整数串;比较文本整数串和关键词整数串,如果相同,则提取,否则,进行下一步;
(4)、对汉字进行形近字分组,建立一个形近字库;将分词后文本的每一个汉字与关键词库中的关键词的每一个汉字根据该形近字库的汉字分组进行匹配,如果分词后文本的每一个汉字与关键词库中的关键词的每一个汉字属于同一组,则提取,否则,不是关键词。
2、根据权利要求1所述的变异关键词的提取方法,其特征在于,步骤(4)所述的建立一个形近字库,其步骤为:
首先分别计算两个汉字的笔段总数,如果两个汉字的笔段总数相差大于某一数量,则认为两个汉字不是形近字;
如果两个汉字的笔段总数相差小于或等于上述某一数量,则进行如下处理,取笔段总数较少的汉字的每一个笔段,计算它与另一汉字中同种类型笔段的最小距离,把计算得到的最小距离累加,如果累加距离除以笔段总数较少汉字的笔段总数大于某一值,则认为不是形近字,否则为形近字;
将所有汉字按上述步骤进行比较归类分组,得到形近字库。
3、根据权利要求2所述的变异关键词的提取方法,其特征在于:所述的某一数量是3。
4、根据权利要求2所述的变异关键词的提取方法,其特征在于:所述的笔段为横、竖、撇、捺,汉字的笔段总数以及一个汉字每一个笔段与另一个汉字同种类型笔段最小距离通过笔段的像素点集合得到。
5、根据权利要求4所述的变异关键词的提取方法,其特征在于,笔段的像素点集合通过以下方法获得:
读取标准字库文件,得到一个汉字的N×N的字符点阵图像,二值图像表示,设P(i,j)表示图像中第i行第j列上的像素,则P(i,j)可表示为:
汉字的字符集合为N×N字符点阵所有P(x,y)=1的像素点组成的集合,扫描汉字的字符集合,分别提取汉字横、竖、撇、捺笔段像素点的集合。
6、根据权利要求5所述的变异关键词的提取方法,其特征在于:横笔段像素点集合通过以下步骤获得:
(a)、如果汉字的字符集合不为空,则在字符集合中按从左到右,从上到下的顺序找到一个像素点,然后从该点出发沿0°角方向在字符点阵中扫描,被扫描的点构成扫描集合;
(b)、将扫描集合从字符集合中去掉;
(c)、计算扫描集合的点数,如果大于一个最小值,则为横笔段,该扫描集合为横笔段像素点集合,存储该横笔段像素点集合;
(d)、如果字符集合不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个扫描集合,如果一个集合中的像素点与另一个集合中的像素点的最小距离小于或等于1个像素点,则合并该两个扫描集合,把合并后的扫描集合作为新的横笔段像素点的集合,这样,最后得到的像素点的集合便是汉字所有横笔段像素点的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810045712.X/1.html,转载请声明来源钻瓜专利网。