[发明专利]利用了网络搜索的依存句法的领域自适应方法有效
| 申请号: | 201310729563.X | 申请日: | 2013-12-26 |
| 公开(公告)号: | CN103646112B | 公开(公告)日: | 2017-01-18 |
| 发明(设计)人: | 周光有;赵军 | 申请(专利权)人: | 中国科学院自动化研究所 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
| 代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 吴秋明 |
| 地址: | 100190 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 网络 搜索 依存 句法 领域 自适应 方法 | ||
技术领域
本发明涉及自然语言处理技术领域,尤其涉及利用了网络搜索的依存句法的领域自适应方法。
背景技术
句法分析是自然语言处理中的基础研究问题,对机器翻译、问答系统、信息抽取等应用都起到重要的支撑作用。依存句法以其形式简洁、易于标注、便于应用等优点而倍受重视。近年来,依存句法分析的研究取得了较大进展。目前,最好的依存句法分析器(有时,也称为“依存句法分析模型”)对英文的依存句法分析的准确率已经达到了90%以上,对中文的依存句法分析的准确率也达到了80%以上。但是,这仅仅是在受限领域,比如新闻领域上所能实现的性能。而在依赖于句法分析的上层应用中,往往面临的是要面对不受限领域的数据如何进行依存句法分析。依存句法分析方面的国际权威学者Slav Petrov等人在EMNLP2010上发表论文指出,依存句法分析器MaltParser在华尔街日报(WSJ)上的无标记依存正确率(Unlabeled Accuracy Score,UAS)为84.89%,当用该依存句法分析器MaltParser来处理TREC的列表性和事实类问句时,该依存句法分析器的UAS将降至62.81%。此外,2012年,Google(注册商标:谷歌)公司组织的SANCL评测“Parsing the Web:网页分析”中的一个关键任务就是利用大量未标注的数据来改善依存句法分析器在不同领域的分析性能。但是,根据评测结果,该依存句法分析器的领域自适应结果并不是很理想。因此,研究领域自适应的依存句法分析以提高依存句法分析器在不同领域上的性能,是自然语言处理及其相关应用中迫切需要解决的问题之一。
领域自适应的依存句法分析器主要需面对以下的两种应用情形,一种是目标领域数据是具有有限的带标注的有限带标注数据,另一种是目标领域数据是没有任何带标注的无标注数据。通常,第二种情形更为普遍、在对其的领域自适应的依存句法分析的难度也更大,是领域自适应技术研究的难点,也是本发明的重点。
在此,将制作依存句法分析器时原本所要针对的领域称为源领域。目标领域数据与源领域数据的不同之处主要在于:目标领域数据中存在大量新的领域词语、新搭配方式、新用法,因此,对这些新增的特征的学习是自适应技术的主要任务。这些新增的特征可以通过协同训练(co-training)和自训练(self-training)来学习得到一部分特征,但是,无论是co-training还是self-training,它们都是以一种自举的方式来学习这些新增特征,这种自举的方式对新增特征在自学习方面能力不足。因此,需要引入新的方式来进一步充分地挖掘获得新特征。
发明内容
本发明是基于上述现有技术中所存在的问题而开发的,主要针对目标领域没有任何带标注数据或仅具有有限标注的有限带标注数据的依存句法分析领域自适应的情形,以网络搜索为手段来挖掘目标领域的新特征,通过实验证明,能够有效地提高依存句法分析器在目标领域的依存句法分析性能。
本发明的目的在于,提供一种利用了网络搜索的依存句法领域自适应方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310729563.X/2.html,转载请声明来源钻瓜专利网。





