[发明专利]基于学者科研成果挖掘的学者精准定位方法及装置有效
申请号: | 201811149733.6 | 申请日: | 2018-09-29 |
公开(公告)号: | CN109359249B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 唐杰;邵洲;高博;刘德兵 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 学者 科研成果 挖掘 精准 定位 方法 装置 | ||
本发明公开了一种基于学者科研成果挖掘的学者精准定位方法及装置,其中,该方法包括:对学者科研成果p中文本信息进行抽取以获取关键信息,并构建结构化信息;根据关键信息和结构化信息对学者科研成果p中具有地理指向性的隐含信息进行挖掘,以构造学者科研成果p相关结构化的隐含信息O;对结构化信息根据定位信息产生影响的重要程度进行结构化整理,并根据隐含信息O和不同类型地图API特点,获取最终结果R;根据最终结果R和矩阵U获取A→R映射,并获取学者科研成果中集合A的每个学者的地理位置信息,输出学者科研成果p中所有作者的定位信息。该方法可以通过深度挖掘学者科研成果的文本信息,有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
技术领域
本发明涉及定位技术领域,特别涉及一种基于学者科研成果挖掘的学者精准定位方法及装置。
背景技术
学者科研成果的特定性质决定了其高可靠性,而学者的科研成果蕴含了学者的时空相关信息,根据学者的科研成果实现对学者的定位提供了可能性,根据复杂文本(如学者隶属关系的信息)实现精准的定位一直以来是一个难题,已有的多种方法在实现精准定位上出现多方面的不一致。
学者的科研成果具有真实性、准确性、非匿名性、严谨等一系列的特点,因此,其信息具有相当高的可靠性,学者的科研成果蕴含了学者在特定时间、特定地点、从事特定方向的科研活动信息。就一般的论文、专利等科研成果来讲,会包含学者的姓名、所在单位、时间和研究的内容等基本信息。其中,对学者科研论文信息进行抽取等可以完成学者时间空间的关系的关联,在此基础上使用地图API完成学者所属单位和地理位置信息的映射即可实现学者的定位。但是,由于学者科研成果文本信息的非结构化、写法多样等原因,导致抽取单一、语义明确的单位信息存在相当大的困难。使得所获取的学者隶属信息往往具有信息量相对较大、无用信息多、重点信息不突出、干扰信息多、信息缺失、歧义性大、多语言等一系列问题,都使得从学者的科研成果中实现对学者的精准定位变得困难。
传统的地图在实现字符串到地理位置信息的映射中做了很多工作,如谷歌实现了将来自用户的、用于地图搜索的输入条目解析成用于指示输入搜索条目中的位置信息的位置部分相关的工作。百度将用户的输入语句进行切词,并在切词结果中提取与该用户需求相关的特定信息,然后再提取相应信息。奇虎根据用户输入的语句确定查询对应的查询样式,然后根据查询样式,确定查询的地图相关度分数,再根据地图相关分数,判断是否显示与查询相关的电子地图。腾讯通过统计兴趣点数据库内部地图数据出现频率及通过搜索引擎的查询结果数进行排序,提高了地图数据重要度的覆盖率和准确率。微软在多语言的查询上进行了转化和处理,提高了多语言环境下的处理准确率。
上述方法在一定程度上提高了用户输入查询得到的结果的准确性,但是,针对学者科研成果中学者隶属关系信息的特殊性没有进行考虑,导致相当部分的数据无法获得地理位置信息结果,获得的部分结果出现了较大的偏差。使用国内著名的科技大数据挖掘服务平台AMiner的论文数据进行测试,其中,结果显示,直接使用地图API对学者隶属关系信息进行地理位置信息映射的查全率为50%,正确率低于80%。
由于不同的地图在地址信息库的建设的差异性存在,使得地址收录的情况不一致、搜索关键字的权重不一样、搜索结果的顺序不一样等情况的出现。这使得在查询同一字符串时出现的结果出现差异,例如,以查询“西北大学”为例,分别调用百度地图和谷歌地图API,百度地图定位结果为:{lng:108.9342237431768,lat:34.25373435757479},谷歌地图定位结果为:{lat:42.0564594,lng:-87.67526699999999},其中,两者一个在中国境内,一个在美国境内,如果可以从论文中抽取出学者所在国别信息即可实现信息的正确化处理。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于学者科研成果挖掘的学者精准定位方法,该方法可以有效、准确地实现学者科研成果到学者地理位置信息的精确映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811149733.6/2.html,转载请声明来源钻瓜专利网。