[发明专利]地名识别方法、装置、电子设备及可读存储介质有效
申请号: | 201911379176.1 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111144121B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 丁恒;张丹;任广永 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/35 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 徐静;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地名 识别 方法 装置 电子设备 可读 存储 介质 | ||
本申请提供了一种地名识别方法、装置、电子设备及可读存储介质,该方法包括:获取文本中的待检测地名或者待检测机构名称;对待检测地名或者待检测机构名称与地域知识库进行匹配;若在地域知识库中匹配到待检测地名或者待检测机构名称对应的多个地名,则在文本中获取待检测地名或者待检测机构名称的关联名词;根据关联名词确定待检测地名或者待检测机构名称对应的目标地名。通过该方法能够消除待检测地名或者待检测机构名称的歧义,提高了地名识别的准确性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种地名识别方法、装置、电子设备及可读存储介质。
背景技术
随着科技的发展和大数据、自媒体时代的到来,每天都有大量的新闻报道产生。然而人们往往较为关心身边发生的新闻,要使人们能够筛选出其身边的新闻,则需要识别出新闻发生的地点。
现有技术提出的地域名称识别方法,主要是对新闻文本进行中文分词处理,然后将分词后的文本信息与地区库属性进行匹配并计算各级地区属性词的权重,得到新闻发生的地名。其中,地区库属性包括当地的一些食品、特色等。
然而,对新闻文本进行中文分词处理后没有对带有歧义的词进行消歧处理,新闻发生地的地名识别的准确性不高。
发明内容
本申请提供一种地名识别方法、装置、电子设备及可读存储介质,用以解决地名识别的准确性不高的问题。
第一方面,本申请提供了一种地名识别方法,包括:获取文本中的待检测地名或者待检测机构名称;对待检测地名或者待检测机构名称与地域知识库进行匹配;若在地域知识库中匹配到待检测地名或者待检测机构名称对应的多个地名,则在文本中获取待检测地名或者待检测机构名称的关联名词;根据关联名词确定待检测地名或者待检测机构名称对应的目标地名。
本申请通过待检测地名或者待检测机构名称的关联名词,并根据关联名词对在地域知识库中匹配到对应的多个地名的待检测地名或者待检测机构名称进行消歧处理,确定文本中的待检测地名或者待检测机构名称与地域知识库中唯一匹配的地名,提高了地名识别的准确性不高。
可选的,根据关联名词确定待检测地名或者待检测机构名称对应的目标地名,包括:若在文本中存在一个待检测地名或者待检测机构名称的关联名词,则在多个地名中,将与关联名词相关的地名确定为目标地名;若在文本中存在多个待检测地名或者待检测机构名称的关联名词,则获取各个关联名词在文本中的出现频次,根据各个关联名词的出现频次确定待检测地名或者待检测机构名称对应的目标地名。通过该方法能够消除待检测地名或者待检测机构名称的歧义,提高了地名识别的准确性。
可选的,根据各个关联名词的出现频次确定待检测地名或者待检测机构名称对应的目标地名,包括:若在各个关联名词中存在一个第一关联名词,则在多个地名中,将与第一关联名词的地名确定为目标地名,第一关联名词为各个关联名词中出现频次最高的关联名词;若在各个关联名词中存在多个第一关联名词,则在多个第一关联名词中确定一个第二关联名词,并在多个地名中,将与第二关联名词相关的地名确定为目标地名,第二关联名词为多个第一关联名词中流行度最高的关联名词。通过该方法能够在文本中存在多个关联名词时,确定出待检测地名或者待检测机构名称对应的目标地名。
可选的,若在地域知识库中匹配到待检测地名或者待检测机构名称对应的一个地名,则将该地名确定为待检测地名或者待检测机构名称对应的目标地名。通过该方法能够在文本中存在一个关联名词时,确定出待检测地名或者待检测机构名称对应的目标地名。
可选的,还包括:获取文本中涉及的所有待检测地名或者机构名称对应的目标地名;在文本中涉及的所有待检测地名或者机构名称对应的目标地名中确定至少一组目标地名,至少一组目标地名中每组目标地名为属于同一行政区域的目标地名;获取每组目标地名中各个目标地名的出现频次;根据每组目标地名中各个目标地名的出现频次,确定文本的发生地。该方法能够通过文本中涉及的所有待检测地名或者机构名称对应的目标地名及各个目标地名的出现的频次,确定出文本的发生地。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911379176.1/2.html,转载请声明来源钻瓜专利网。