[发明专利]地名消岐方法和地名消岐装置在审
申请号: | 201710134401.X | 申请日: | 2017-03-08 |
公开(公告)号: | CN108572960A | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 房璐;缪庆亮;孟遥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;康建峰 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消岐 关联实体 相似度 匹配 检索 指向 文本 关联 开放 | ||
1.一种地名消岐方法,包括:
从文本中提取待消岐地名和所述待消岐地名的上下文;
从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及
根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
2.根据权利要求1所述的方法,其中,根据下述计算所述上下文与候选地名实体的相似度:
获取将所述上下文映射到向量空间后获得的上下文向量;
获取将候选地名实体的属性值中所包含的纯文本映射到所述向量空间后获得的候选地名实体向量;以及
计算所述上下文向量与所述候选地名实体向量之间的距离作为所述上下文与候选地名实体的相似度。
3.根据权利要求2所述的方法,其中,将所述上下文中包含的词在所述文本中出现的次数作为该词在所述上下文向量中的权重,并且将所述纯文本中包含的词的词频*逆向文档频率TF*IDF值作为该词在相应候选地名实体向量中的权重。
4.根据权利要求3所述的方法,其中,根据下式计算所述纯文本中包含的词t在该候选地名实体向量中该词t的权重Weight(t):
tf(t)=Freqlod
Weight(t)=tf(t)*idf(t)
其中,Freqlod表示词t在该候选地名实体的属性值中所包含的纯文本中出现的次数,|E|表示所有候选地名实体的个数,nt表示所有候选地名实体的属性值中所包含的纯文本中出现词t的候选地名实体的个数。
5.根据权利要求1所述的方法,其中,根据候选地名实体关联到其他实体的数目计算所述待消岐地名指向候选地名实体的相对重要性。
6.根据权利要求5所述的方法,其中,根据下式计算所述待消岐地名指向候选地名实体的相对重要性:
其中,s表示待消岐地名,ei和ej表示候选地名实体,n表示所有候选地名实体的个数,Link(ei)表示候选地名实体ei关联到其他实体的数目,以及Link(ej)表示候选地名实体ej关联到其他实体的数目。
7.根据权利要求1所述的方法,其中,根据所述待消岐地名的上下文与候选地名实体的属性值中所包含的关联实体的共现度计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度。
8.根据权利要求7所述的方法,其中,根据下式计算所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度:
其中,Context(s)表示上下文,Entities(ei)表示候选地名实体,m表示关联实体的数量,权重wj表示关联实体的名字的IDF值;并且当第j个关联实体的名字在待消歧地名的上下文中出现时,I=1,否则,I=0。
9.根据权利要求1至8中任一所述的方法,其中,根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度的加权和从所述候选地名实体中选择待消岐地名实际所指的地名实体。
10.一种地名消岐装置,包括:
提取单元,被配置为从文本中提取待消岐地名和所述待消岐地名的上下文;
检索单元,被配置为从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及
选择单元,被配置为根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710134401.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种与数据库交互数据的方法和装置
- 下一篇:一种文本的向量化方法以及装置