[发明专利]一种获取文本的地理实体的数据处理系统有效
申请号: | 202211148441.7 | 申请日: | 2022-09-21 |
公开(公告)号: | CN115248837B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 刘羽;张正义;林方;李一 | 申请(专利权)人: | 中科雨辰科技有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06K9/62 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 安娜 |
地址: | 100093 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 获取 文本 地理 实体 数据处理系统 | ||
本发明提供了一种获取文本的地理实体的数据处理系统,通过获取目标文本对应的初始地理实体集并对初始地理实体列表进行处理获取第一地理实体集,第一地理实体信息包含第一地理实体以及第一地理实体的数量,并计算第一地理实体列表与预设的关键地理实体每个字符间的相似度,得到预设关键地理实体对应的第二地理实体集,对第二地理实体集进行处理获取目标地理实体列表,并通过逐步比较第二地理实体的数量确定目标地理实体列表,也就是目标文本具体描述的地理实体列表,因此,可以使目标地理实体列表的选取更加准确。
技术领域
本发明涉及地理实体匹配技术领域,特别是涉及一种获取文本的地理实体的数据处理系统。
背景技术
现有技术中,当对文本中的地理实体进行识别时,往往对文本中的地理实体进行直接识别,并且当识别出的地理实体对应两个或多个地点时,不进行判断,随机输出其中一个识别得到的地理实体;另一个方法中,当识别出的地理实体对应两个或多个地点时,获取文本所在位置,判断文本所在位置与识别出的地理位置之间的距离,选择距离最近的进行输出。
现有技术中存在的问题为:输出的地理实体不够准确,存在和文本中描述的地点不同的情况,因此,会对用户理解文本内容带来误差。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种获取文本的地理实体的数据处理系统,包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库包括:初始地理实体集,当计算机程序被处理器执行时,实现如下步骤:
S100、根据所述初始地理实体集,获取初始地理实体集对应的第一地理实体集A={A1,……,Ai,……,An},Ai={Ai1,……,Aig,……,Aiz},Aig为Ai对应的第g个第一地理实体信息,g的取值为1到z,z为第一地理实体信息的数量,i的取值为1到n,n为第一地理实体列表的数量,其中,第一地理实体信息包括:第一地理实体和第一地理实体对应第一获取实体数量;
S200、根据A和预设的关键地理实体A0,获取A0对应的第二地理实体集Z={Z1,……,Zt,……,Zk},Zt={Zt1,……,Ztg,……,Ztz},Ztg为Zt对应的第g个第二地理实体信息,t的取值为1到k,k为第二地理实体的数量,其中,第二地理实体信息包括:第二地理实体和第二地理实体对应的第二获取实体数量,所述第二地理实体为与A0之间的相似度都不小于D0的第一地理实体,D0为预设相似度阈值;
S300、若k=k0,将Zk作为目标地理实体列表,k0为预设的地理实体数量阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科雨辰科技有限公司,未经中科雨辰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211148441.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:测试治具及测试系统
- 下一篇:一种基于AR技术的目标跟踪方法及系统