[发明专利]一种大规模文档主题语义分析方法及系统有效
申请号: | 201610710249.0 | 申请日: | 2016-08-23 |
公开(公告)号: | CN106844328B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 赵淦森;杜嘉华;黄晓烽;王欣明;唐华;聂瑞华;汤庸;朱佳;史爱红 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510631 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 文档 主题 语义 分析 方法 系统 | ||
本发明公开了一种新型大规模文档主题语义分析方法及系统,方法包括:检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。系统包括:主题集合生成单元和主题分析单元。本发明能从大规模文档数据当中自动、快速、灵活、有效地完成主题生成,并分析评估任意给定文档在生成主题上的主题分布,适用于快速生成主题的场合。
技术领域
本发明涉及语义分析技术领域,尤其涉及一种大规模文档主题语义分析方法及系统。
背景技术
大数据时代,文档数量以不曾出现的惊人速度增长,超出人工处理的时间和精力成本。日常生活中积累的大量数据资料:从文本文件到办公文件,以及图片、图像、影像和音频等以文档为主要形式的数据往往得不到充分利用,而这些文档中又存在着大量可以挖掘和学习的信息。对于数据当中潜藏着巨大的信息价值,人们无从下手的原因,一是文档类型和文档来源的多样性,二是文档内容的高纬度和非结构化的特性,关键是文档数据量大。当下,大数据分析尤其是海量非结构化文档主题分析,具有深远意义:从海量无规律数据中自动学习模式和知识,结合可视化技术对数据进行分析和解释,并根据已有经验对存在异常进行检测纠正并实现趋势预测。
现有主题分析方案集中于在传统词袋模型基础上引入语义信息,实现文档间的相似度计算,包括词频共现、语义词典和主题模型。其中,词频共现通过计算语料的统计信息发现文档中以一定频率共现的词语,语义词典通过预先设定一系列词的上下位和所属关系。然而词袋模型由于其数学模型的限制,并不适合于大规模文档的主题语义分析。传统机器学习和自然语言处理方法采用词袋模型处理文本数据,将文档以长向量表示,每个向量的分量代表词语的对应特征值。词袋模型的提出为处理文本数据提供了解决方案,但由于其无法捕获词序、语义和句法等信息,难以从大规模数据中学习更多有用价值。再者,大规模的数据容易造成维度灾难,令词袋模型无法直接应用到大数据分析中。
针对词袋模型语义信息的缺失,现有方案通过引入语义词典进行补偿,包括同义词林、WordNet和HowNet等。然而,此类词典无法覆盖所有可能的语义情况,尤其对在词典中未曾出现过的词汇和特定领域的知识支持度低。LDA主题模型通过计算语料集合的统计信息获取文档、主题和词语的语义关系,然而由于其沿用词袋模型,无法避免在词汇量巨大时所引起的维度灾难,再者,LDA模型训练当中的迭代矩阵运算导致主题训练时间过长。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能适用于大数据分析,且能快速完成主题生成的一种大规模文档主题语义分析方法及系统。
本发明所采用的技术方案是:
一种大规模文档主题语义分析方法,包括以下步骤:
A、检测已知文档集合中是否存在分类信息,若是,则执行有监督主体生成步骤,生成得到多个主题集合;反之,则执行无监督主体生成步骤,生成得到多个主题集合;
B、根据得到的多个主题集合,将需要分析的文档分别计算与各主题集合的相关度,从而得到该文档在关于主题集合的主题分布情况。
作为所述的一种大规模文档主题语义分析方法的进一步改进,所述有监督主体生成步骤包括:
A11、根据分类信息,运用特征提取算法对已知文档集合中同一类别的所有文件进行关键词提取,并对提取的关键词整合到各类别对应的特征池当中;
A12、将对应同一类别的特征池中的关键词通过聚类算法划分得到对应同一类别的两个意群和不相关特征集合;
A13、将对应同一类别的两个意群进行相关性识别,得出对应同一类别的强相关特征集合和弱相关特征集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610710249.0/2.html,转载请声明来源钻瓜专利网。