[发明专利]地名消岐方法和地名消岐装置在审

专利信息
申请号: 201710134401.X 申请日: 2017-03-08
公开(公告)号: CN108572960A 公开(公告)日: 2018-09-25
发明(设计)人: 房璐;缪庆亮;孟遥 申请(专利权)人: 富士通株式会社
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 李春晖;康建峰
地址: 日本神*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 消岐 关联实体 相似度 匹配 检索 指向 文本 关联 开放
【权利要求书】:

1.一种地名消岐方法,包括:

从文本中提取待消岐地名和所述待消岐地名的上下文;

从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及

根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

2.根据权利要求1所述的方法,其中,根据下述计算所述上下文与候选地名实体的相似度:

获取将所述上下文映射到向量空间后获得的上下文向量;

获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量;以及

计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。

3.根据权利要求2所述的方法,其中,将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重,并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。

4.根据权利要求3所述的方法,其中,根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):

tf(t)=Freqlod

Weight(t)=tf(t)*idf(t)

其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。

5.根据权利要求1所述的方法,其中,根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。

6.根据权利要求5所述的方法,其中,根据下式计算所述待消岐地名指向候选地名实体的相对重要性:

其中,s表示待消岐地名,ei和ej表示候选地名实体,n表示所有候选地名实体的个数,Link(ei)表示候选地名实体ei关联到其他实体的数目,以及Link(ej)表示候选地名实体ej关联到其他实体的数目。

7.根据权利要求1所述的方法,其中,根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。

8.根据权利要求7所述的方法,其中,根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度:

其中,Context(s)表示上下文,Entities(ei)表示候选地名实体,m表示关联实体的数量,权重wj表示关联实体的名字的IDF值;并且当第j个关联实体的名字在待消歧地名的上下文中出现时,I=1,否则,I=0。

9.根据权利要求1至8中任一所述的方法,其中,根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。

10.一种地名消岐装置,包括:

提取单元,被配置为从文本中提取待消岐地名和所述待消岐地名的上下文;

检索单元,被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及

选择单元,被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710134401.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top