[发明专利]一种新词发现方法和系统有效
| 申请号: | 200710175229.9 | 申请日: | 2007-09-27 |
| 公开(公告)号: | CN101131705A | 公开(公告)日: | 2008-02-27 |
| 发明(设计)人: | 龚才春;黄玉兰 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 | 代理人: | 梁挥;陈振 |
| 地址: | 100080北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新词 发现 方法 系统 | ||
技术领域
本发明涉及一种文本信息处理领域,特别是一种利用搜索引擎来辅助发现语料中新词的方法和系统。
背景技术
在自然语言处理或计算语言学中,新词是指以前从来没有出现过的词汇,或者是以前出现过的词汇的新用法。新词一般在词典中没有收录,因此也有不少人把新词等同于未登录词。
随着时代的进步和经济的发展,在人们日常生活的各方各面都不断涌现出大量的新词,尤其是随着互联网在中国的日益普及,大量网络新词层出不穷,日常生活中产生的新词也得以更快的传播。据报道,我国每年至少出现汉语新词或新用法1000个以上。新词出现的速度不断加快,新词出现的领域不断增多,而使用传统的人工方法搜集新词语并编篡词典的方法,既耗时又耗力,而且很难保证不遗漏新词。人们迫切需要使用自动检测方法快速输出若干候选新词供人工筛选,从而减轻工作量。在每个学科和领域都有相应的领域术语,收集和整理这些领域术语对各领域的学术研究和交流也具有重要的意义。然而领域专家一般不是词典编篡专家,领域专家一般很难胜任领域术语的编篡工作;而词典编篡专家一般也不是特定领域的技术专家,所以词典编篡专家也很难单独编写各领域的领域词典。人们在编篡领域词典的时候也迫切希望通过计算机处理相关的领域语料,自动挖掘该领域的候选术语集合,在此基础上进行人工编篡。
现有一种利用搜索引擎的用户搜索日志来发现新词的方法,在大量用户提交的搜索关键词中统计各关键词的出现频次,如果大于某个预先设定的阈值,则作为新词输出,该方法能够比较准确、实时地发现互联网的新词。但是其很难用于特定领域的术语抽取和领域词典编篡,而且该方法所需要的搜索日志一般只有商用搜索引擎公司可以获得,一般用户根本无法使用该方法。
也有学者提出了“有意义串”的概念,有意义串一般认为是具有特定语义,能够独立使用的语言单位,其很大一部分就是新词。
现有技术一般通过考查字符串的稳定性、独立性和完整性三个方面来判断字符串是否是有意义串。有意义串的稳定性是指一个有意义串应该具有一定的使用频次,不是偶尔出现的字符串;有意义串的独立性是指有意义串应该使用灵活,可以在很多语用环境中出现;有意义串的完整性是指有意义串应具有完整的语义。
现有技术中,判断一个字符串是否是有意义的,一般也可以从稳定性、独立性和完整性三个方面考查。首先统计字符串在语料中的出现频次,如果字符串的出现频次大于一定阈值,一般认为字符串是稳定的;再统计字符串在语料中所有出现位置左侧和右侧不同的字符或词语的数量,如果左右两侧不同的字符或词语数量大于一定阈值,则认为字符串是独立的;然后判断字符串A是否是完整的,即当且仅当不存在任何字符串B,字符串A是B的子串,且字符串B的出现频次也大于预先设定的阈值。
但是,基于字符串的稳定性、独立性和完整性三个方面判断字符串是否为有意义串或新词的方法,很难设定一个合适的阈值。阈值太小,新词发现的准确率很低,很多没有意义的垃圾串有可能输出;阈值太大,语料中部分有意义串或新词将不能输出。基于字符串的稳定性、独立性和完整性的方法也只能识别大规模语料中出现频次比较高的那部分新词,对于部分具有明确语义,能够独立使用的新词,很可能由于在语料中的使用频次不是很高而不能输出。
发明内容
本发明所要解决的技术问题在于提供一种新词发现方法和系统,既能够有效发现语料中的高频新词,又能有效发现语料中出现频次较低的新词。
为了解决上述问题,本发明提供了一种新词发现方法,其特点在于,包括以下步骤:
步骤A,获取语料中出现频次大于第一预设阈值的所有字符串;
步骤B,确定符合预先设定规则的字符串;
步骤C,对剩余的字符串,计算每个字符串在语料中所有位置的左右侧不同字符或词语的数量;
步骤D,将所述剩余的字符串左右侧不同字符或词语数均大于第二预设阈值的字符串,作为新词输出;
步骤E,将剩下的字符串作为查询关键词,到搜索引擎中进行搜索,统计返回的搜索结果数量、以及搜索结果记录;
步骤F,根据返回的搜索结果数量和搜索结果记录与预设阈值比较结果,判断并确定最终新词。
优选的,所述的新词发现方法,所述步骤A中,所述获取字符串是使用重复串发现方法获取语料中出现频次大于第一预设阈值的所有字符串。
优选的,所述的新词发现方法,所述重复串发现方法为基于后缀树索引的重复串发现方法、基于后缀数组的重复串发现方法、基于N元递增的重复串发现方法、以及基于Apriori的重复串发现方法中的一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710175229.9/2.html,转载请声明来源钻瓜专利网。





