[发明专利]一种融合词向量和主题模型的领域实体消歧方法有效
申请号: | 201710913216.0 | 申请日: | 2017-09-30 |
公开(公告)号: | CN107861939B | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 余正涛;马晓军;郭剑毅;陈玮;张志坤 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/951 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 向量 主题 模型 领域 实体 方法 | ||
本发明涉及一种融合词向量和主题模型的领域实体消歧方法,属于自然语言处理和深度学习技术领域。本发明获取待消歧实体的候选实体集合,再获取待消歧实体和候选实体的向量形式,结合上下位关系领域知识库获取待消歧实体的类别指称,进行上下文相似度和类别指称相似度计算,再利用LDA主题模型和Skip‑gram词向量模型对不同主题分类下的文档进行词向量训练,获取多义词不同含义的词向量表示,用K‑Means算法抽取文本的主题领域关键词,进行领域主题关键词相似度计算,最后对三类特征相似度进行融合,把相似度最高的候选实体作为最终的目标实体。本发明优于传统消歧方法,可以很好的满足实际应用的需求。
技术领域
本发明涉及一种融合词向量和主题模型的领域实体消歧方法,属于自然语言处理和深度学习技术领域。
背景技术
实体消歧是自然语言处理领域的重要任务之一,该任务通过对文本中多义词的义项加以明确,旨在消除语义歧义,为人类和计算机更好理解自然语言信息提供帮助,实体消歧的任务万网针对通用文本,如新闻、网页等,使用的语料库由多个领域的文本构成,然而在实际的应用中,经常需要对某一特定领域的文本进行消歧,这不仅对领域知识的挖掘具有重要的意义,而且有助于领域知识库的构专业文献自动翻译等任务。
发明内容
本发明提供了一种融合词向量和主题模型的领域实体消歧方法,以用于解决现有的实体消歧方法使用Skip-gram词向量计算模型在处理多义词时只能计算出一个混合了多种语义的词向量,没能对多义词不同含义进行区分的问题。
本发明的技术方案是:一种融合词向量和主题模型的领域实体消歧方法,所述方法的具体步骤如下:
Step1、首先利用Word2vec对旅游领域的百科语料进行词向量模型训练;
所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.2步骤获得的语料进行预处理,采用开源的工具包中科院汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料。
Step1.4、选择Google的开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练。
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对。
Step2、从维基百科知识库中获取待消歧实体的候选实体集合;
所述步骤Step2的具体步骤为:
Step2.1、下载维基百科2014年12月的中文离线数据库,并提取其中旅游分类下的页面信息;
Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。
本发明过程中候选实体的获取,主要目的是获取高质量的候选实体集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710913216.0/2.html,转载请声明来源钻瓜专利网。