[发明专利]一种异源语料自动融合方法有效
| 申请号: | 201510701364.7 | 申请日: | 2015-10-27 |
| 公开(公告)号: | CN105389303B | 公开(公告)日: | 2018-11-27 |
| 发明(设计)人: | 吕学强;周强;董志安;仵永栩 | 申请(专利权)人: | 北京信息科技大学;清华大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100192 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语料 自动 融合 方法 | ||
本发明涉及一种异源语料自动融合方法,包括以下步骤:步骤1)构建UNP映射词表;步骤2)对源体系的标注进行归一化处理;步骤3)确定产生歧义的词的词性,对语料体系中词的词义进行评判,进而确定词的词性标记;步骤4)对目标词汇集合中的单类词进行训练,然后用所述特征模板对多类词进行预测,输出预测结果的概率值;步骤5)对概率值的分布曲线进行曲线拟合;步骤6)对预测结果进行置信度评价;步骤7)对预测结果进行正确性验证;步骤8)将标注后的词及词性信息还原到原始语料中,将语料库融合为一个更大规模的语料库。本发明扩展了语料库的规模,统一了标注标准,提高了后续基于语料库语言学的研究分析的准确性,获得了较好的效果。
技术领域
本发明属于中文语料信息处理技术领域,具体涉及一种异源语料自动融合方法。
背景技术
自然语言处理领域的分析技术可以分为两个方面,一个是浅层分析,如词法分析;另一个是深层分析,如句法分析。进行处理的文本数据叫语料。一个文本的集合叫语料库。语料库在数据标注过程中,采用不同的思想、不同的方法、不同的格式形成不同的语料体系。目前针对词法分析的语料库已有很多高质量的、大规模的语料库存在,在基于语料库语言学的研究方面,已发挥了比较好的效用。而针对一个汉语句子进行深层次的、全局的分析与处理的语料库还很少,且标准不统一,规模不大,这也制约了句法分析研究应用的发展。
语料库的句法标注是语料库语言学研究的前沿课题,它处理的目标是对语料文本进行句法分析和标注,形成树库(treebank)语料。
由于汉语句子不像英语语句那样有天然的空格分割,需要对汉语句子进行词法层面的分析,对其进行词语切分和词性标注。对于同一个自然语言处理任务,往往存在多个不同风格的人工标注语料库[1]。不同风格的标注库在资源层面存在标注不一致的问题,在语料标注中没有一个统一的标准,不能保证在词性标注以及人工标注的一致性。在构建大规模的汉语树库的过程中,需要有比较大规模的已分词和标注完善的基础语料库,再对这些基础语料库进行自动分析和人工标注,最终形成汉语树库。由于现有的语料库的规模并不是很大,而且不同研究机构对于词性的标注规范不同,不能直接组合为一个大规模基础语料库。这也限制了语料的多领域适应性,限制了语料库发展的规模,阻碍了基于语料库语言学的发展。因此,需要采用一定的方式,将语料的标注标准进行统一化,使得异源的语料库可以融合起来利用,发挥多语料综合利用的效用。
当前在语料融合方面常用的方法有:将源语料的分词和词性标注标准进行转化,使其与目标语料一致,再将转化后的语料与目标语料融合,训练一个新词法分析器,利用这个新的词法分析器进行解码;以原标注信息作为指导、目标标注作为学习目标来自动地构建一个有噪声的平行标注语料,并用此分类器处理另一个语料库等。但是这些方法在测试集大于训练集的情况下,在转化过程中会因训练数据限制而出现分类错误。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的异源语料自动融合方法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种异源语料自动融合方法,包括以下步骤:
步骤1)构建UNP映射词表;
步骤2)利用所述UNP映射词表对源体系的标注进行归一化处理;
步骤3)确定在语料融合的过程中产生歧义的词的词性,利用知网中的词语的概念定义,对语料体系中词的词义进行评判,进而确定词的词性标记,对于不同的语料体系,将其中需要进行词性排歧的词抽取出来;
步骤4)使用特征模板对目标词汇集合中的单类词进行训练,然后用所述特征模板对多类词进行预测,输出预测结果的概率值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;清华大学,未经北京信息科技大学;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510701364.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内容搜索方法和实施内容搜索方法的电子装置
- 下一篇:文本相似度处理方法





