[发明专利]一种基于主题模型的本体学习方法、系统、装置及介质有效
申请号: | 202110570916.0 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113312910B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 钟竞辉;黄豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/232 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑宏谋 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 本体 学习方法 系统 装置 介质 | ||
本发明公开了一种基于主题模型的本体学习方法、系统、装置及介质,其中方法包括以下步骤:获取文档数据集,对所述文档数据集进行预处理;从经过预处理的所述文档数据集中抽取核心概念的种子术语集;根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。本发明将主题模型应用于本体学习领域,通过主题模型来学习领域的概念,提高概念内术语的语义一致性,可广泛应用于机器学习和语言学领域。
技术领域
本发明涉及机器学习和语言学领域,尤其涉及一种基于主题模型的本体学习方法、系统、装置及介质。
背景技术
在计算机领域,本体被定义为一种用于表达领域知识的工具。它最早在知识工程领域被提出用于对真实世界建模,帮助人工智能系统推理。一个领域的本体定义了一个领域的概念,概念之间的关系,以及限制关系的公理(可选)。其中每个概念由它包含的全部语义的术语形成,概念之间的关系分为层级关系和非层级关系。它通常表示为一个有向图,每个节点是一个概念,有向边表示概念之间的关系。
构建领域的本体一般由领域的一组专家来完成。这样构建的本体具有较高的准确性,但也会有一些缺点。比如会耗费过高的人工成本;构建的本体会具有领域专家的偏好;对于新兴术语的兴起,领域专家无法快速捕获等等问题。
因此,通过一些机器学习方法,实现基于文本数据集进行半自动或全自动本体学习的方法就非常重要,这类方法能帮助降低劳力成本,学习更客观的本体,挖掘领域内新术语。本体学习是一种使用自然语言处理技术和一些机器学习方法,在文本数据集上(结构化的文本,半结构化的文本,或者无结构文本)学习出领域文本的方法流程。本体学习包含了多个子问题:提取领域内的术语;形成领域内的概念;发掘领域概念之间的关系;构建领域本体。
主题模型最早在2003年被David Blei提出。该模型是一类概率图模型,被用于发现文本数据中包含的主题。它假设每个文档是有限个主题上的概率分布,每个主题是多个词汇上的概率分布,通过学习主题模型实现最大化模型产生当前文本数据集的概率,最后每个隐主题被表示为一些在该主题下拥有高概率值的词汇。主题模型由于其强大的可解释性,高效的运行效率,在工业界被广泛应用于推荐系统,文档聚类,信息检索等问题上。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于主题模型的本体学习方法、系统、装置及介质。
本发明所采用的技术方案是:
一种基于主题模型的本体学习方法,包括以下步骤:
获取文档数据集,对所述文档数据集进行预处理;
从经过预处理的所述文档数据集中抽取核心概念的种子术语集;
根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;
从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习。
进一步,对所述文档数据集进行预处理,包括:
对所述文档数据集进行数据清洗;
对所述文档数据集中的文档拆分成多个句子,将所述句子拆分成多个词汇;
对所述词汇进行标注,并抽取名词词组;
其中,每个名词词组之间的词汇用下划线连接。
进一步,对所述文档数据集进行数据清洗,包括:
去掉所述文档数据集中的HMTL标签和URL;
将所述文档数据集中的文档的编码统一成UTF-8的标准;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110570916.0/2.html,转载请声明来源钻瓜专利网。