[发明专利]一种基于主题模型的本体学习方法、系统、装置及介质有效
申请号: | 202110570916.0 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113312910B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 钟竞辉;黄豪 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/232 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑宏谋 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 本体 学习方法 系统 装置 介质 | ||
1.一种基于主题模型的本体学习方法,其特征在于,包括以下步骤:
获取文档数据集,对所述文档数据集进行预处理;
从经过预处理的所述文档数据集中抽取核心概念的种子术语集;
根据种子术语集和经过预处理的文档数据集,采用半监督方式对主题模型进行训练;
从训练好的主题模型中获取主题词汇矩阵,根据主题词汇矩阵获取多个术语簇,每个所述术语簇对应一个核心概念,完成本体的自动学习;
当所述文档数据集中的文档设有标签,从经过预处理的所述文档数据集中抽取核心概念的种子术语集,包括:
设包含名词词组w的文档集合为Cw,不包含名词词组w的文档集合为在Cw中被标注为核心概念CCk的文档数量为a,没有标注为核心概念CCk的文档数量为e;
在中被标注为核心概念CCk的文档数量为b,没有标注为核心概念CCk的文档数量为d;
采用以下公式计算名词词组w对于核心概念CCk的重要度:
其中,N为数据集中所有的文档数量;
为每个核心概念CCk选取重要度排名前L个名词词组作为所述核心概念CCk的种子术语;
采用以下方式选取重要度排名前L个名词词组:
计算名词词组w与所有核心概念的信息增益值,获得K个信息增益值IGw=[igw,1,...,igw,K];
选择核心概念CCk作为名词词组w的核心概念,其中,选择条件满足igw,k为最大的信息增益值,igw,k为名词词组w在核心概念CCk下的重要度;获取每个名词词组的核心概念,以及记录名词词组和核心概念对应的重要度;对于每个核心概念,选取重要度最高的L个名词词组作为所述核心概念的种子术语。
2.根据权利要求1所述的一种基于主题模型的本体学习方法,其特征在于,对所述文档数据集进行预处理,包括:
对所述文档数据集进行数据清洗;
对所述文档数据集中的文档拆分成多个句子,将所述句子拆分成多个词汇;
对所述词汇进行标注,并抽取名词词组;
其中,每个名词词组之间的词汇用下划线连接。
3.根据权利要求2所述的一种基于主题模型的本体学习方法,其特征在于,对所述文档数据集进行数据清洗,包括:
去掉所述文档数据集中的HMTL标签和URL;
将所述文档数据集中的文档的编码统一成UTF-8的标准;
去掉所述文档数据集中的乱码文字和非英文字词,获得预处理后的文档数据集。
4.根据权利要求1所述的一种基于主题模型的本体学习方法,其特征在于,采用吉布斯采样来训练所述主题模型,以学习词汇和隐主题的联合分布。
5.根据权利要求1所述的一种基于主题模型的本体学习方法,其特征在于,所述主题词汇矩阵为K×W的矩阵,所述主题词汇矩阵的元素通过以下公式计算获得:
其中代表采样在主题k下的词汇的数量;对于所有的种子术语,直接划分到对应的核心概念的术语簇中;
对于其他的名词词组w而言,将名词词组w划分到核心概念CCk下的术语簇中,其中:
获得K个术语簇,每个所述术语簇对应一个核心概念。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110570916.0/1.html,转载请声明来源钻瓜专利网。