[发明专利]命名排歧方法及系统有效
申请号: | 201510036663.3 | 申请日: | 2015-01-23 |
公开(公告)号: | CN104598599B | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 唐杰;刘德兵;刘静远 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种命名排歧方法,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已标注数据集将论文集进行分类,以获取多个原子论文集团,每个原子论文集团中的论文相关联;S3,根据作者对每个原子论文集团进行聚类分析,以得到与作者对应的论文集合;S4,通过主动学习策略从论文集合中选取特定的论文,并对论文进行标注以得到标注结果;S5,将标注结果加入已标注数据集,并重复执行步骤S1~S4直至原始论文集合中的论文标注完成。本发明的方法,正确率高、主动性强、成本低。本发明还提出一种命名排歧系统。 1 | ||
搜索关键词: | 标注 集合 数据集 聚类分析 样本容量 重复执行 主动学习 正确率 主动性 关联 分类 | ||
【主权项】:
1.一种命名排歧方法,其特征在于,包括以下步骤:S1,从原始论文集合中选取预定样本容量的论文集;S2,根据已经标注数据集训练得到偏差分类器,以获取作者对应的高准确率原子论文集团;所述偏差分类器包括:初始化所述已标注数据集的权重;利用分类算法对所述已标注数据集进行分类,获取多个弱分类器;利用偏差错误量值计算所述弱分类器的偏差误差;从所述多个弱分类器中获取具有最小所述偏差误差的弱分类器;更新所述已标注数据集的权重;获取所述偏差分类器;S3,根据作者对应的高准确率原子论文集团进行聚类分析,得到所述作者对应的论文集合,进而完成对所有论文的标注结果;S4,通过主动学习策略在聚类论文集合中选取最难以确定自动标注结果的论文,提供用户交互接口,用户可进行标注;S5,根据所述标注结果,更新偏差分类器和聚类模型,进而整体提升系统性能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510036663.3/,转载请声明来源钻瓜专利网。