[发明专利]命名排歧方法及系统有效
申请号: | 201510036663.3 | 申请日: | 2015-01-23 |
公开(公告)号: | CN104598599B | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 唐杰;刘德兵;刘静远 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标注 集合 数据集 聚类分析 样本容量 重复执行 主动学习 正确率 主动性 关联 分类 | ||
本发明提出一种命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将论文集进行分类,以获取多个原子论文集团,每个原子论文集团中的论文相关联;S3,根据作者对每个原子论文集团进行聚类分析,以得到与作者对应的论文集合;S4,通过主动学习策略从论文集合中选取特定的论文,并对论文进行标注以得到标注结果;S5,将标注结果加入已标注数据集,并重复执行步骤S1~S4直至原始论文集合中的论文标注完成。本发明的方法,正确率高、主动性强、成本低。本发明还提出一种命名排歧系统。
技术领域
本发明涉及计算机技术领域,尤其涉及一种命名排歧方法及系统。
背景技术
命名歧义主要是指“一个名字实际对应到多个人”或者“多个名字实际对应于同一个人”的问题。命名歧义在现实生活中普遍存在,例如,据统计美国有1.14亿人共用300个名字;在同名查询网上搜索“张伟”,可以知道全中国有29万多个名叫“张伟”的人。
命名排歧是通过一定的技术手段去除名字中的歧义。它是近年来自然语言处理、数据挖掘、数字图书馆和信息检索研究中的热点问题。其中,学术论文中的作者命名排歧是这一技术的典型应用场景。由于作者存在大量同名,以及不同学术数据库、会议和期刊对于作者姓名的规范标准不同而导致名字写法不同,不同的作者可能以相同的名字出现。将名字按照实际指代的作者区分合并是学术搜索引擎和数字图书馆提升搜索质量及进一步挖掘知识的核心问题。通过命名排歧技术,精确地将来自异构数据源的有噪声作者信息归类到正确的作者实体中,对于进一步建立研究人员档案,对研究人员进行学术能力评价,搜索特定研究领域的研究人群,分析研究人员的合作与引用关系,以及构建特定研究领域的社会化网络等应用都有着重要意义。
目前命名排歧技术已经取得了一定的进展,根据命名排歧的机器学习模型,主要分为三类:基于监督学习,基于无监督学习和基于半监督学习。基于监督学习的方法可以取得最好的命名排歧的效果。然而,在实际应用中,很难获得高质量的训练数据集来保证基于监督学习的命名排歧方法获得较高性能。另外,现有的命名排歧方法缺乏对先验约束知识和用户反馈信息的运用。整体准确率低、主动性差、成本高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种高正确率的命名排歧方法。
本发明第二方面目的在于提出一种命名排歧系统。
为了实现上述目的,本发明第一方面实施例的命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,每个所述原子论文集团中的论文相关联;S3,根据作者对每个所述原子论文集团进行聚类分析,以得到与所述作者对应的论文集合;S4,通过主动学习策略从所述论文集合中选取特定的论文,并对所述论文进行标注以得到标注结果;S5,将所述标注结果加入所述已标注数据集,重复执行步骤S1~S4直至所述原始论文集合中的论文标注完成。
根据本发明实施例的命名排歧方法,根据已标注数据集将所述论文集进行分类,以获取多个原子论文集团,对每个原子论文集团进行聚类分析,以获取多个与预定作者对应的论文集合,得到了较为可信的重名排歧结果。通过主动学习策略从所述论文集合中选取特定的论文,并对论文进行标注以获取标注结果,借鉴标注结果,即使系统中获得了新的“知识”,因此可以重新进行高正确率原子论文集团的发现,进而进行下一轮的聚类和主动学习,开始下一次循环操作,进一步提高了命名排歧的性能。
在一些示例中,所述步骤S2包括:S21,根据所述论文特征关系从所述已标注数据集获取偏差分类器;S22,利用所述偏差分类器将所述论文集划分成多个所述原子论文集团。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510036663.3/2.html,转载请声明来源钻瓜专利网。