[发明专利]一种建立大型中文语料库的方法无效
| 申请号: | 200910234737.9 | 申请日: | 2009-11-17 |
| 公开(公告)号: | CN102063440A | 公开(公告)日: | 2011-05-18 |
| 发明(设计)人: | 潘文林;周连惠 | 申请(专利权)人: | 周连惠 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 215600 江苏省张家港市国泰北路一号留学*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 建立 大型 中文 语料库 方法 | ||
技术领域
本发明属于中文信息处理。
背景技术
1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:
①时间的限制:语料描述具有历时特征,着重描述共时特征。选取从1919年到当代的语料(分为5个时期),以1977年以后的语料为主。
②文化的限制:主要选取受过中等文化教育的普通人能理解的语料。
③使用领域的限制:语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会
这个语料库现在只完成了2000万字语料的输入和校对工作,尚未进行进一步的加工,还是“生语料库”,因而还不能提供社会使用。由于主要靠手工录入,人工劳动的成本很高,据说单是建立生语料库,耗资约200万人民币。
现在,该课题已经结项,国家语委语言文字应用研究所成立了“汉语语料库深加工”的课题组,准备对国家级语料库的2000万字的核心语料进行深加工,逐步把这个生语料库变为熟语料库。
没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:《人民日报》光盘数据库,北京大学计算语言学研究所,北京语言文化大学,清华大学,,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。还要对多音词注音。示例1:古城/n虽/c遭/v破坏/v,/w但/c它/r留下/v了[le5]/u契丹族/nz和[he2]各[ge4]/r民族/n,/w特别/d是/v汉族/nz劳动/vn人民/n共同/d开拓/v祖国/n北疆/s,/w创造/v我国/r历史/n文明/n的[de5]/u足迹/n。/w
切分规范中,主要规定现代汉语的切词原则,即什么样的汉字组合可以为一个切分单位。在汉语中,新词,即使在词典中没有登录,最理想的方式是利用现代信息技术手段,在已经建立的国家语言资源语料库中自动提取。但是囿于目前研究和技术手段的某些局限,计算机自动提取汉语新词语的研究尚未取得明显的进展和实质性的突破。
发明内容
本发明就是针对目前语料库的不完整而导致的计算机自动提取汉语新词语的失败而提出了简单和切实可行的方法:而这个问题的核心就是“哪些汉字可以或者有可能组合为一个新词;哪些汉字不能或者不可能组合为一个新词”。
汉语的常用字有4000字左右,在现代汉语中的使用频率多达99%以上,因此这些常用字的所有组合,就可以建立起为未来提供参考的语料库,而不会出现面对新词无能为力的情况,比如“雷人,剩女”,那么有可能出现“雷语,剩男,剩人”,但是目前的语料库没有储备可能出现的新词,同时词的定义在语言界比较混乱,发明人认为应该简化如下:
单字词(有意义的独力汉字)如“红,我”;二字词如:我们,伟大,打击;三字词如:计算机四字词如:利在千秋;多字词(多于4个字构成的词)如:自由职业者、人算不如天算。
从统计上可以说明,大部分的三、四字词几乎来源于二字词;因此只要把可能出现2字词的组合全部考虑进去,对于可能的“准2字词”,如“雷人”,进行筛选,建立一个2字词的全集,在此基础上扩展为3字词和4字词的全集,那么计算机就可以对出现的新词在语料库中自动提取。
2字词的全集建立也不是非常复杂,4000*4000=16,000,000;一千六百万;先通过比较删除和目前重复的词,然后再利用语言切分软件对余下的进行切分,然后排序删除明显不能成为词的语言垃圾。这样出来的结果就是2字词的全集。在根据3字词的构词规则,用4000字和这二字词的全集进行组合。然后通过比较删除和目前重复的词,再利用语言切分软件对余下的进行切分,然后排序删除明显不能成为“词”的语言垃圾。这样出来的结果就是3字词的全集;然后就是进行2字词与2字词的组合,重复上面的步骤:因为大部分的4字词都是2字词与2字词的组合。比如”博爱平等、不爱说话、备案登记、保安服务”(博爱和平等;不爱和说话构成的),这样可以大大减少计算机的工作量。具体如下:
3字词的构成是2字词与常用字的组合,有2种:1“单字+2字词”2“2字词+单字”。假设,经过筛选后,2字词的集合有50万,那么3字词的组合有2*50万*4000=40亿;目前的大型计算机的运算次数达到千亿每秒,因此完全可以完成这个任务。进行人工校对和筛选:事实上,3、4字词的数量要大大少于2字词。可能只有30万。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于周连惠,未经周连惠许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910234737.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:印制线路板
- 下一篇:图像形成装置和该装置的消耗品接近用尽状态警告方法





