[发明专利]一种新词发现方法和系统有效
| 申请号: | 200710175229.9 | 申请日: | 2007-09-27 |
| 公开(公告)号: | CN101131705A | 公开(公告)日: | 2008-02-27 |
| 发明(设计)人: | 龚才春;黄玉兰 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁挥;陈振 |
| 地址: | 100080北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新词 发现 方法 系统 | ||
1.一种新词发现方法,其特征在于,包括以下步骤:
步骤A,获取语料中出现频次大于第一预设阈值的所有字符串;
步骤B,确定符合预先设定规则的字符串;
步骤C,对剩余的字符串,计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量;
步骤D,将所述剩余的字符串中左右侧不同字符或词语数大于第二预设阈值的字符串,作为新词输出;
步骤E,将剩下的字符串作为查询关键词,在搜索引擎中进行搜索,统计返回的搜索结果数量、以及搜索结果记录;
步骤F,根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结果,判断并确定最终新词。
2.根据权利要求1所述的新词发现方法,其特征在于,所述步骤A中,所述获取字符串是使用重复串发现方法获取语料中出现频次大于第一预设阈值的所有字符串。
3.根据权利要求2所述的新词发现方法,其特征在于,所述重复串发现方法为基于后缀树索引的重复串发现方法、基于后缀数组的重复串发现方法、基于N元递增的重复串发现方法、以及基于Apriori的重复串发现方法中的一种。
4.根据权利要求1所述的新词发现方法,其特征在于,所述步骤B中,所述预先设定规则为:
去掉以特定字符开始的字符串;和/或
去掉以特定字符结束的字符串。
5.根据权利要求1所述的新词发现方法,其特征在于,所述步骤E中,所述在搜索引擎中进行搜索,统计返回的搜索结果数量、以及搜索结果记录,包括如下步骤:
在搜索引擎中进行精确搜索,或进行精确搜索和模糊搜索,统计返回的精确搜索结果数量、模糊搜索结果数量、以及精确搜索前多条结果记录。
6.根据权利要求5所述的新词发现方法,其特征在于,所述步骤E中,返回的搜索结果数量和搜索结果记录与预设阈值的比较结果,具体为:
返回的精确搜索结果数大于第三预设阈值;
和/或精确搜索结果数与模糊搜索结果数的比值大于第四预设阈值;
和/或字符串在精确搜索前多条结果记录中的左右侧不同字符或词语数量均大于第五预设阈值。
7.根据权利要求6所述的新词发现方法,其特征在于,所述步骤F中,所述判断并确定最终新词,包括以下步骤中的一个或一个以上的组合:
步骤F1,如果精确搜索结果数量大于所述第三预设阈值,则将该字符串作为最终新词输出;
步骤F2,如果精确搜索结果数与模糊搜索结果数的比值大于所述第四预设阈值,则将该字符串作为最终新词输出;
步骤F3,如果在精确搜索前多条结果记录中该字符串左右侧不同的字符或词语数量均大于所述第五预设阈值,则将该字符串作为最终新词输出。
8.一种新词发现系统,其特征在于,包括获取模块,过滤模块,搜索模块和判断模块,其中:
所述获取模块,用于获取语料中出现频次大于第一预设阀值的所有字符串;
所述过滤模块,用于确定符合预先设定规则的字符串集合,并对符合预先设定规则的字符串,计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量,将左右侧不同字符或词语数大于第二预设阈值的字符串作为新词输出;
所述搜索模块,用于将剩下的字符串作为查询关键词,在搜索引擎中进行搜索,统计返回的搜索结果数量、以及搜索结果记录;
所述判断模块,用于根据返回的搜索结果数量和搜索结果记录与预设阈值的比较结果,判断并确定最终新词。
9.根据权利要求8所述的新词发现系统,其特征在于,所述搜索模块中的搜索是指精确搜索,或者精确搜索和模糊搜索;所述搜索模块中的搜索结果数量,是指精确搜索结果数量、模糊搜索结果数量;所述搜索模块中的搜索结果记录,是指精确搜索前多条结果记录。
10.根据权利要求9所述的新词发现系统,其特征在于,所述判断模块中返回的搜索结果数量和搜索结果记录与预设阈值的比较结果,是指:
返回的精确搜索结果数大于第三预设阈值;
和/或精确搜索结果数与模糊搜索结果数的比值大于第四预设阈值;
和/或字符串在返回的精确搜索前多条结果记录中的左右侧不同字符或词语数量均大于第五预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710175229.9/1.html,转载请声明来源钻瓜专利网。





