[发明专利]基于地理位置信息的机构命名排歧方法及装置在审
申请号: | 201910987453.0 | 申请日: | 2019-10-17 |
公开(公告)号: | CN110851669A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 唐杰;邵洲;袁莎;刘德兵 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/29 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 地理位置 信息 机构 命名 方法 装置 | ||
本发明公开了一种基于地理位置信息的机构命名排歧方法及装置,其中,该方法包括:对输入文本信息抽取生成机构信息集合,对输入文本信息挖掘生成具有地理位置指向性的信息,并结构化为地理位置指向性信息集合;根据机构信息集合、地理位置指向性信息集合和多地图API,将机构信息集合中的每个机构映射为不同的地理位置,将映射结果进行结构化生成结构化机构信息集合;根据相似度算法对结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;根据机构相似度矩阵判断机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,输出排歧结果。该方法能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
技术领域
本发明涉及信息检索技术领域,特别涉及一种基于地理位置信息的机构命名排歧方法及装置。
背景技术
机构实体具有歧义性,尤其是学术成果数据中,对机构实体进行指代消解和实体消歧是实现对学者归属、学术成果归属操作等的核心,也是进行科研大数据分析的基础。可以应用到多种应用中,基于学术成果的机构竞争合作分析、基于科技大数据的机构科研能力评估和排名等。机构的命名排歧主要解决由于机构合并、机构重名、机构改名、机构简称、表达不规范等一系列原因造成的指代歧义,在学术成果中的机构名称更是具有文本内容短、表达复杂等特点。已有的机构命名排歧方法主要为基于字符串相似度匹配算法,忽略了其机构表达原始文本中的一些特性,没有充分挖掘其可能的隐藏信息,因此准确率不高。
尽管机构的命名排歧问题作为地点的命名排歧的一个子类较早就被人们研究过,例如2006年,Poulique等人尝试对多语言的文本进行地理位置信息编码,实现地理位置的识别、消歧和可视化,并提供了一个完成这些功能的工具;2008年,Overell等人提出共现模型来解决地点命名排歧问题,该方法通过地点名称的共现来解决,从方法性上来讲简单易操作;Ju等人将实体共现和话题模型结合起来以实现短文本中地址名称命名排歧准确率的提升;Buscaldi等人提出了基于WordNet概念密度的方法来实现地址的命名排歧,该方法在小上下文(短语级别)上精度高,而在大的上下文(文档级别)可以获得更大的覆盖率。由于没有考虑到学术成果中文本信息的特殊性这些方法复杂度较高,在解决学术成果中学者机构命名排歧上准确度相对较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于地理位置信息的机构命名排歧方法,该方法能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
本发明的另一个目的在于提出一种基于地理位置信息的机构命名排歧装置。
为达到上述目的,本发明一方面实施例提出了一种基于地理位置信息的机构命名排歧方法,包括:
S1,获取输入文本信息,对所述输入文本信息进行抽取生成机构信息集合,对所述输入文本信息进行挖掘生成所述机构信息集合中的每个机构对应的具有地理位置指向性的信息,将所述具有地理位置指向性的信息结构化为地理位置指向性信息集合;
S2,根据所述机构信息集合、所述地理位置指向性信息集合和多地图API,将所述机构信息集合中的每个机构映射为不同的地理位置,将映射的结果进行结构化生成结构化机构信息集合;
S3,根据相似度算法对所述结构化机构信息集合进行相似度计算,根据计算结果生成机构相似度矩阵;
S4,根据所述机构相似度矩阵判断所述机构信息集合中的不同机构是否属于同一机构,根据判断结果进行机构命名排歧,并输出排歧结果。
本发明实施例的基于地理位置信息的机构命名排歧方法,通过对输入文本信息进行机构抽取及指向性信息挖掘,并进行地理位置信息映射及结构化,结合相似度算法进行相似度计算,最后根据计算的相似度值进行命名排歧,能够辅助实现快速准确地实现学术成果中不同机构之间的命名排歧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910987453.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置