[发明专利]新词发现中的字符串过滤方法有效
申请号: | 201010298510.3 | 申请日: | 2010-09-29 |
公开(公告)号: | CN101950306A | 公开(公告)日: | 2011-01-19 |
发明(设计)人: | 牟小峰 | 申请(专利权)人: | 北京新媒传信科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新词 发现 中的 字符串 过滤 方法 | ||
技术领域
本发明涉及文本信息处理技术领域,特别涉及一种新词发现中的字符串过滤方法。
背景技术
近年来,随着互联网的逐渐流行,各种电子资源文本规模日渐扩大,文本中包含的信息越来越多。为了从大量的资源中检索和挖掘有价值的信息,研究界和企业界大力开发各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语,因此自动发现新词是进行文本处理和数据挖掘的重要部分。
所谓新词发现,是指从文本中以自动或半自动的方式获得未登录词。
由于现有汉语分词方法、理论及实现中的种种缺陷,尚无一种汉语分词方法能够在分词准确率和分词速度上达到较高的水平。汉语分词的准确率高,往往需要增大分词中的计算开销,从而导致分词系统在工程上不适用;汉语分词的速度快,往往需要降低分词中的准确率,从而也容易导致分词系统在工程上不适用。
导致分词系统准确率无法提高的重要原因在于未登录词识别准确率不高,包括人名、地名、组织机构名和其它类型的新词。为了提高未登录词的识别准确率,必须从文本里发现未登录词,并把这些发现的未登录词注入词典,从而减少未登录词的识别错误。
新词发现的研究方法主要包括如下两种:
1)基于监督的新词发现方法,该方法适合处理低频和较短的字符串组成的新词。这种方法一般基于训练语料,采用各种统计模型进行识别。基于监督的新词发现方法的缺点在于容易受到训练语料和分词系统的影响,导致系统准确率不高或者获得的新词存在种种限制。
2)基于非监督的新词发现方法,该方法适合处理高频和较长的字符串组成的新词。这种方法一般不需要训练语料进行统计分析,直接从字或词出发计算字符串或词串的成词概率。基于非监督的新词发现的缺点在于计算复杂性太高,新词发现的准确率不高。
对基于无监督的新词发现方法而言,需要把垃圾串(即垃圾字符串)和词语串(词语字符串)区分开来。垃圾串并不是新词,词语串是新词。所谓新词发现,就是把垃圾串和词语串区分开,仅保留词语串即可。由于二者并没有明显的外在形式特征,因此该问题并不容易处理。
学术界现有的区分垃圾串和词语串的方法如下:
(1)基于规则的垃圾串过滤。通过对文本中词语构成特点的分析,总结得到大量构词法知识,包括过滤规则、构词规则、特殊构词规则等。通过语言学规则来限定和约束字与字的组合从而发现新词。基于规则的方法对于过滤明显的垃圾串非常有用,该方法能区分出绝大多数词语串,但是也会保留大量垃圾串,过滤精度比较低。
(2)基于字符串组合概率来过滤垃圾串。通过分词系统切分文本,通过统计单字与其它字符串的成词概率来保留词语串或过滤垃圾串。字与字或字与字符串之间的成词概率通过大规模语料库可以估计得到,成词概率超过预设阈值的字符串可以作为词语串或者垃圾串。相对于规则方法而言,统计方法能够从成词概率上估计字符串的概率大小,该方法在准确率上明显优于规则方法,但仍然保留了大量垃圾串。
(3)基于n元语法的新词发现。通过统计字与字的N元搭配来发现新词,例如二元、三元、四元等等,并对超出一定出现阈值的N元字符串进行语言学规则过滤,符合规则的字符串判断为新词。该方法的缺陷在于,新词的长度并不确定,因此必须统计大量字符串的N元搭配,而这种统计方法往往会占用大量资源。如果仅统计长度有限的新词,则较长的新词必定会遗漏。另外,基于规则的过滤方法的效果并不太好。
(4)基于多种特征量的背景比对。通过比较候选字符串的多种特征量以及和背景文本之间的概率差异来判断新词的概率,这些特征量包括上下文熵、似然比等等。背景文本往往是与测试文本相似的文本,通过比较二者之间的差异来判断测试文本中的新词。该方法的缺陷在于计算复杂性较高,而且背景文本的确定也比较困难,实用性并不好。
以上诸种垃圾串过滤方法均有其局限性,或者过滤的准确率太低,或者计算复杂性太高,过滤效果和表现并不能满足工程应用的要求。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种计算复杂度低、新词发现准确率高并能够支持任意长度的新词发现中的字符串过滤方法。
(二)技术方案
为解决上述技术问题,本发明提供了一种新词发现中字符串过滤方法,该方法包括:
步骤A、估计候选字符串的成词概率;
步骤B、将成词概率大于第一预设阈值的候选字符串作为词语串输出。
优选地,所述步骤B具体包括:基于N元语法对成词概率大于第一预设阈值的候选字符串进行垃圾串过滤,将剩余的候选字符串作为词语串输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京新媒传信科技有限公司,未经北京新媒传信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010298510.3/2.html,转载请声明来源钻瓜专利网。