[发明专利]一种融合词向量和主题模型的领域实体消歧方法有效
申请号: | 201710913216.0 | 申请日: | 2017-09-30 |
公开(公告)号: | CN107861939B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 余正涛;马晓军;郭剑毅;陈玮;张志坤 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种融合词向量和主题模型的领域实体消歧方法,属于自然语言处理和深度学习技术领域。本发明获取待消歧实体的候选实体集合,再获取待消歧实体和候选实体的向量形式,结合上下位关系领域知识库获取待消歧实体的类别指称,进行上下文相似度和类别指称相似度计算,再利用LDA主题模型和Skip‑gram词向量模型对不同主题分类下的文档进行词向量训练,获取多义词不同含义的词向量表示,用K‑Means算法抽取文本的主题领域关键词,进行领域主题关键词相似度计算,最后对三类特征相似度进行融合,把相似度最高的候选实体作为最终的目标实体。本发明优于传统消歧方法,可以很好的满足实际应用的需求。 | ||
搜索关键词: | 一种 融合 向量 主题 模型 领域 实体 方法 | ||
【主权项】:
一种融合词向量和主题模型的领域实体消歧方法,其特征在于:所述方法的具体步骤为:Step1、首先利用旅游领域的百科语料进行词向量模型训练;Step2、从维基百科知识库中获取待消歧实体的候选实体集合;Step3、结合词向量模型和LDA主题模型,充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧;所述步骤Step3的具体步骤如下:Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境,利用词向量模型训练上下文环境得到上下文特征,然后进行上下文特征相似度的计算;Step3.2、利用K‑means聚类算法获取待消歧实体所在文本的高频词,利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征,即上位词,与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。Step3.3、利用LDA主题模型对训练语料进行上下文主题建模,再进行分类,在不同主题下对多义词进行语义标注,利用词向量模型进行训练获取多义词的不同词向量,利用K‑means聚类算法获取不同主题下的关键词特征,然后与候选实体进行主题关键词特征相似度的计算;Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合,然后进行领域实体消歧。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710913216.0/,转载请声明来源钻瓜专利网。