[发明专利]地名识别方法、装置、电子设备及可读存储介质有效
申请号: | 201911379176.1 | 申请日: | 2019-12-27 |
公开(公告)号: | CN111144121B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 丁恒;张丹;任广永 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/35 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 徐静;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地名 识别 方法 装置 电子设备 可读 存储 介质 | ||
1.一种地名识别方法,其特征在于,包括:
获取文本中的待检测地名或者待检测机构名称;
对所述待检测地名或者待检测机构名称与地域知识库进行匹配;
若在所述地域知识库中匹配到所述待检测地名或者待检测机构名称对应的多个地名,则在所述文本中获取所述待检测地名或者待检测机构名称的关联名词;
根据所述关联名词确定所述待检测地名或者待检测机构名称对应的目标地名;
所述方法还包括:
获取所述文本中涉及的所有待检测地名或者机构名称对应的目标地名;
在所述文本中涉及的所有待检测地名或者机构名称对应的目标地名中确定至少一组目标地名,所述至少一组目标地名中每组目标地名为属于同一行政区域的目标地名;
获取所述每组目标地名中各个目标地名的出现频次;
根据所述每组目标地名中各个目标地名的出现频次,确定所述每组目标地名对应的第一行政级别以及所述第一行政级别的相似度,所述第一行政级别为所述每组目标地名对应的最高行政级别;
获取所述第一行政级别的相似度中的至少一个第一相似度,所述第一相似度为所述每组目标地名对应的第一行政级别的相似度中最高的第一行政级别的相似度;
判断所述第一相似度是否大于预设阈值;
若所述第一相似度大于预设阈值,且所述第一行政级别是预设行政级别,则根据所述第一相似度对应的至少一组目标地名确定所述文本的发生地;
若所述第一相似度大于预设阈值,且所述第一行政级别不是预设行政级别,则获取所述第一相似度对应的至少一组目标地名中的次高行政级别,并将所述次高行政级别作为新的第一行政级别,确定所述第一相似度对应的至少一组目标地名对应的新的第一行政级别的相似度,以根据所述新的第一行政级别的相似度确定所述文本的发生地。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关联名词确定所述待检测地名或者待检测机构名称对应的目标地名,包括:
若在所述文本中存在一个所述待检测地名或者待检测机构名称的关联名词,则在所述多个地名中,将与所述关联名词相关的地名确定为所述目标地名;
若在所述文本中存在多个所述待检测地名或者待检测机构名称的关联名词,则获取各个所述关联名词在所述文本中的出现频次,根据各个所述关联名词的出现频次确定所述待检测地名或者待检测机构名称对应的目标地名。
3.根据权利要求2所述的方法,其特征在于,所述根据各个所述关联名词的出现频次确定所述待检测地名或者待检测机构名称对应的目标地名,包括:
若在各个所述关联名词中存在一个第一关联名词,则在所述多个地名中,将与所述第一关联名词的地名确定为所述目标地名,所述第一关联名词为各个所述关联名词中出现频次最高的关联名词;
若在各个所述关联名词中存在多个所述第一关联名词,则在多个所述第一关联名词中确定一个第二关联名词,并在所述多个地名中,将与所述第二关联名词相关的地名确定为所述目标地名,所述第二关联名词为多个所述第一关联名词中流行度最高的关联名词。
4.根据权利要求1所述的方法,其特征在于,若在所述地域知识库中匹配到所述待检测地名或者待检测机构名称对应的一个地名,则将该地名确定为所述待检测地名或者待检测机构名称对应的目标地名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911379176.1/1.html,转载请声明来源钻瓜专利网。