[发明专利]基于文档嵌入模型的大规模平行坐标数据简化方法在审
申请号: | 202110012811.3 | 申请日: | 2021-01-06 |
公开(公告)号: | CN112507693A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 周志光;马煜明;汤馥莲;刘玉华 | 申请(专利权)人: | 浙江财经大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06F40/30;G06F16/33;G06F16/35;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 陈昱彤 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文档 嵌入 模型 大规模 平行 坐标 数据 简化 方法 | ||
本发明公开一种基于文档嵌入模型的大规模平行坐标数据简化方法,包括:对平行坐标系中每个属性轴上的数据进行聚类,将平行坐标系中不同坐标轴上的相同聚类视为同一单词,将穿插于平行坐标系的每条数据线视为由单词组成的句子,所有数据线对应的句子合成语料库;利用Doc2Vec文档嵌入模型训练语料库,语料库中的每个句子表达为一个高维向量;将得到的高维向量投影到二维空间并进行采样,最终将与采样点对应的数据线绘制在平行坐标系中,得到简化后的平行坐标系。本发明通过文档嵌入模型捕捉平行坐标系中数据之间的连续语义关联特征,并在简化过程中有效保持该特征,使简化后的平行坐标不仅可降低视觉冗余,且能极大限度地展示数据中隐含的连续关联特征。
技术领域
本发明涉及一种基于文档嵌入模型的文档表达方法以及大规模平行坐标的简化方法,属于信息技术领域。
背景技术
平行坐标是利用线段的几何布局呈现多维属性数据,其独特的几何分布特性和优越的视觉表达性能使其广泛应用于多维数据的探索和分析。然而,随着多维数据规模的增大,平行坐标系中大量数据线交叉、重叠和覆盖,严重干扰用户对于原始多维数据的认知。
过滤、绑定和采样是解决大规模平行坐标视觉混淆的主要方法。过滤可灵活选择坐标轴的属性范围,进而降低平行坐标系中多维数据呈现的冗余程度,可以帮助用户聚焦感兴趣特征的数据。但在具体的过滤过程洪,需要用户对于原始坐标轴的含义具有先验知识,而且过滤后得到的结果更加侧重于局部数据,难以呈现原始多维数据的宏观分布,存在局限性;绑定是另外一种降低平行坐标系中大规模数据视觉混淆的有效方法,主要通过绑定具有相似特征的数据线条,降低视觉紊乱的同时增强关联特征视觉感知。在具体的线条绑定过程中,存在数据理解歧义,为平行坐标系中多维数据的理解和探索带来不确定性;;采样是降低数据规模的有效手段。针对平行坐标系中大规模数据进行采样,能够在降低视觉紊乱的基础上,很好地保留原始多维数据的宏观分布特征。以随机采样算法(RandomSampling)为例,它不仅能够保持原始数据的空间分布,而且能够增强原始数据的几何特征表示。
尽管上述方法能够从不同角度降低大规模平行坐标系中的视觉混乱问题,但在具体的简化过程中,单个或相邻坐标轴之间的数据分布被考虑地比较细致,而多维数据穿越坐标轴之间形成的上下文特征没有被综合考虑。实际上,多维数据穿越平行坐标系中的坐标中,其连续分布特征具有重要的意义。而传统的采样算法很难保持平行坐标系中连续特征,存在一定的局限性。例如,Ellis等提出的采样透镜方法,虽然可以缓解视觉混淆区域的数据重叠问题,却难以观察数据的层次类别特征,尤其是数据穿越坐标轴之间形成的上下文特征,很容易隐藏且丢失视觉连续性。因此,面向大规模平行坐标开展采样算法研究,如何保持数据穿越坐标轴之间的上下文关联特征,具有重要的意义。
近年来,在自然语言处理(NLP)领域,表征学习被有效地应用于连续语境特征的分析。Word2Vec是Mikolov团队提出的一种用于生成单词向量的非监督式学习算法,根据给定的语料库,通过优化训练模型,可以快速地将一个词表达为向量形式。自Word2Vec算法提出以来,被专家们广泛应用于各个领域。例如,Zhou et al.提出一种基于Word2Vec模型的简化大规模地理空间OD轨迹的算法;Xue et al.提出一种利用Word2Vec模型构建情感词典的方法。相比于Word2Vec模型,Doc2Vec是一种文档嵌入模型,是一种基于神经网络的无监督学习算法,能够把句子、段落、文档表示为向量。Bilgin等通过Doc2Vec文档嵌入模型对土耳其语和英语的Twitter信息进行情感分析;Lee等设计一种基于Doc2Vec模型的文档表示方法,能够同时表示文档的上下文关系和情感特征。
发明内容
本发明的目的是提供一种基于文档嵌入模型的大规模平行坐标数据简化方法。
为实现上述目的,本发明所采取的技术方案是:本发明大规模平行坐标数据简化方法包括:
(1)对平行坐标系中每个属性轴上的数据进行聚类,将平行坐标系中不同坐标轴上的相同的聚类视为同一单词,将穿插于平行坐标系的每条数据线视为由单词组成的一个句子,所有数据线对应的句子合成语料库;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江财经大学,未经浙江财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110012811.3/2.html,转载请声明来源钻瓜专利网。