[发明专利]基于半指导策略的汉语多词表达语料构建方法无效

申请号：	201310205699.0	申请日：	2013-05-29
公开（公告）号：	CN103336779A	公开（公告）日：	2013-10-02
发明（设计）人：	梁颖红	申请（专利权）人：	苏州市职业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	苏州铭浩知识产权代理事务所(普通合伙) 32246	代理人：	张一鸣
地址：	215104 江苏省苏州市国际教育***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于指导策略汉语词表语料构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机领域，特别是涉及一种基于半指导策略的汉语多词表达语料构建方法。

背景技术

语料是进行研究的基础，公共或开放的汉语多词表达语料比较短缺，为了克服无指导方法的性能缺陷，我们将采用半指导策略来构建汉语多词表达语料。

采用半指导方法构建汉语标注语料的过程中，聚类中心的确定对聚类的结果影响很大。聚类是一种无指导方法，从理论和实践两方面都已经证实，无指导的方法不如有指导方法效果好。其主要原因是因为无指导方法没有标注语料，无法从标注语料中获得知识。因为在半指导的方法中，事先已经标注了小规模的语料，对这部分标注语料进行学习，获取一些有指导的知识来帮助确定聚类的中心是可行的。我们将采用有指导的中心词驱动方法来确定聚类的中心，以克服随机确定初始中心致使聚类结果不理想的缺陷。

在语料构建过程中，如果把不正确的聚类结果放回到标注语料中，在后续的循环过程中会把这个错误放大，致使聚类的结果更加不准确，因此对放回标注语料库的结果进行数据净化是非常关键的。本项目拟采用基于一致性协同学习原则的多分类器标注策略对聚类结果进行验证，至少有两个分类器都认为是正确的结果，我们才放回到已标注语料中，来确保放回正确的标注结果。

[Chao Deng and Mao Zu Guo，2006] 提出的名为DE-Tri-training 的半指导K近邻聚类算法，是有指导和无指导方法有机结合的典型代表，而且也取得了较好的结果。DE-Tri-training 的半指导K近邻聚类算法的基本思想是：首先利用事先人工标注的小部分语料，采用Tri-training进行学习并对未标注语料进行标注，再把标注好的结果添加到已标注语料中，这样就扩大了标注语料的规模，然后把扩大规模后的标注语料作为下一步聚类的种子，而且为了尽可能把正确的标注结果放回到原来的标注语料中，对经过Tri-training标注的结果采用了数据编辑技术，以去除不正确的标注结果。

该方法已经是有效的，但是，该方法存在两个缺陷：（1）它在聚类过程中还是采用随机确定初始中心的方法，这对聚类结果会产生不利的影响；（2）采用数据编辑技术去除不正确的标注结果时，是选择聚类结果中的三个最近邻，如果至少两个最近邻和此结果一致，才认为该结果是真的，再放回已标注语料中。我们知道，聚类方法缺少有指导的标注语料信息，而以上方法却采用聚类结果来确认是否正确，因此，这种去除不正确结果的方法缺乏可信度。

发明内容

本发明主要解决的技术问题是提供一种基于半指导策略的汉语多词表达语料构建方法，能够采用中心词驱动的方法来确定聚类的中心，以提高聚类的准确率；采用一致性协同学习原则来去除不正确的标注结果。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于半指导策略的汉语多词表达语料构建方法，其特征在于：其方法包括以下步骤：

A、基于中心词扩展的初始聚类中心确定方法，依据从语料库中统计的少量特征数据来确定每个类的初始中心；

B、基于有指导信息的一致性协同学习数据净化策略，在原来的DE-Tri-training算法中，对新标注的数据在聚类中寻找它的三个最近邻，如果这三个近邻中至少两个和它本身的标注结果一致，就认为该标注结果是对的，则放入到已标注语料中。

优选的是，所述步骤A中基于中心词扩展的初始聚类中心确定方法包括以下步骤：

a、基于中心词扩展的方法；

b、K-均值聚类算法。

优选的是，所述步骤B中基于有指导信息的一致性协同学习数据净化策略是在原来的DE-Tri-training算法中，对新标注的数据在聚类中寻找它的三个最近邻，如果这三个近邻中至少两个和它本身的标注结果一致，就认为该标注结果是对的，则放入到已标注语料中。原算法中，以上过程是在聚类过程中进行的，缺少有指导标注信息的借鉴。我们将充分利用已标注信息，使用事先确定的三个分类器，把经过聚类的标注结果分别放入三个分类器中，如果至少两个的标注结果与原来一致，才认为该结果是真的，再放入到已标注语料中。

本发明的有益效果是：本发明一种基于半指导策略的汉语多词表达语料构建方法，具有以下优点：（1）提出采用中心词驱动的方法来确定聚类的中心，以提高聚类的准确率；（2）提出采用一致性协同学习原则来去除不正确的标注结果。我们利用Tri-training的三个分类器对拟放回已标注语料的聚类结果分别用三个分类器来识别，如果至少两个分类器的结果与原来聚类的结果一致，我们才认为该聚类结果是正确的，再放入到已标注的语料中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州市职业大学，未经苏州市职业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310205699.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于半指导策略的汉语多词表达语料构建方法无效

专利文献下载