[发明专利]基于特征计算图的可视化机器学习特征提取系统及方法在审
申请号: | 202110356959.9 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113010164A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 彭艳宏;王雄 | 申请(专利权)人: | 杭州初灵数据科技有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F8/38;G06F9/451;G06N20/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 311799 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 计算 可视化 机器 学习 提取 系统 方法 | ||
1.一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:包括可视化前端界面和数据处理模块;可视化前端界面中包含了用于搭建特征计算图的三种节点控件,分别为Input节点、算子节点和Output节点;数据处理模块用于特征计算图对用户数据集进行处理;每个Input节点对应用户数据集的一列元素;算子节点具有多种不同的算法类型;不同的算法类型的算子节点包含了对应的特征变换函数及其参数,用以对输入的数据进行变换。
2.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:按算法类型进行分类,所述的算子节点包括数据缩放节点、离散化节点、向量化节点、函数变换节点和降维节点;所述的数据缩放节点根据预设的参数对输入的数据进行标准化或归一化运算;离散化节点根据预设的参数对输入的数据进行等距分桶、等频分桶或二值化处理;其中,等距分桶和等频分桶需要设置的参数为分桶数量,二值化需要设置的参数为阈值,将输入数据中大于或等于阈值的部分将被统一变换为1,小于阈值的部分将被统一变换为0;向量化节点根据预设的参数对输入的数据进行独热编码或词向量变换;其中,词向量变换对应有词向量库;函数变换节点根据预设的参数对输入的数据进行对数变换和指数变换,其中对数变换需要设置的参数为底数;指数变换需要设置的参数为指数;降维节点通过主成分分析法或tSNE对输入的数据进行降维;其中,主成分分析法需要设置的参数为主成分数;tSNE需要设置的参数为目标维度。
3.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:在初始的可视化前端界面中,呈现出由列名称构成的多个Input节点,以及一个Output节点,且可视化前端界面上呈现算子工具箱;算子工具箱通过分类展示的方式布置有各个算子节点。
4.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:所述Input节点的数据类型为数值型或类别型;所述算子节点的输入数据类型与Input节点的数据类型相同。
5.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:特征计算图由Input节点、一个或多个算子节点和Output节点拼接得到;各Input节点通过一个或多个算子节点连接到Output节点;每个Input节点对应用户数据集中一列数据。
6.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:所述的用户数据集中具有一个自动生成的ID列作为行标识。
7.根据权利要求1所述的一种基于特征计算图的可视化机器学习特征提取系统,其特征在于:Input节点具有一个或多个输出端,用以连接到后续的一个或多个节点;Output节点具有一个或多个输入端;算子节点具有一个或多个输入端,以及一个或多个输出端;算子节点的输入端连接到对应的Input节点或前一级的算子节点,输出端连接到后一级算子节点或Output节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州初灵数据科技有限公司,未经杭州初灵数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110356959.9/1.html,转载请声明来源钻瓜专利网。