[发明专利]一种图神经网络特征产生方法在审
| 申请号: | 202110873070.8 | 申请日: | 2021-07-30 |
| 公开(公告)号: | CN113554111A | 公开(公告)日: | 2021-10-26 |
| 发明(设计)人: | 田兴邦 | 申请(专利权)人: | 天阳宏业科技股份有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 张永维 |
| 地址: | 100102 北京市朝阳区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 神经网络 特征 产生 方法 | ||
本发明公开了一种图神经网络特征产生方法,所述方法为:从已有的维度制作衍生维度,通过图形理论将客户或数据值表征为图中的节点,相关节点用边进行连接;可将多个维度的数值分箱或分桶成有限的数量;一个维度在处理后可能值为n个值,每个值为图中的一个节点,对每一样本产生对应的边;产生图后,通过图神经网络产生每一节点的高维度坐标;相似的节点会被映射到空间中相临近的位置,产生独特的特征。本发明解决了现有特征工程具有不确定性和随机性的问题。
技术领域
本发明涉及神经网络技术领域,具体涉及一种图神经网络特征产生方法。
背景技术
目前推荐和分类算法常用的方法包括:逻辑回归、线性回归、决策树及其衍生版Extreme Gradient Boosting Decision Tree(XGBDT)或Light Gradient BoostingDecision Tree,Gradient Boosting Classifier、随机森林、向量机(Support VectorMachine)。
此类算法的输入多为结构化的数据,例如附图2通常在做此类的分类时,都需要从已有的维度(附图2中的field栏位),再制作衍生维度。例如在附图2中是用户在网上商城购物时所留下的日志,记载了访问过/购买/点击/保存过商家的信息。例如一个衍生维度即为每一用户对某一商家的访问次数。这样的产生衍生维度,也一般被称为特征工程。
特征工程设计是一难题,不容易找到通用的方法。往往需要靠工程师对数据的个人独特的观察,也有一些随机成分存在。特征工程的好坏可以大大影响上述算法的结果,如何产生有用的特征成为算法结果优劣的关键。
发明内容
为此,本发明提供一种图神经网络特征产生方法,以解决现有特征工程具有不确定性和随机性的问题。
为了实现上述目的,本发明提供如下技术方案:
本发明公开了一种图神经网络特征产生方法,所述方法为:
从已有的维度制作衍生维度,通过图形理论将样本用于数据值表征为图中的节点,相关节点用边进行连接;
可先将多个维度的数值分箱或分桶成有限的数量;
一个维度在处理后可能值为n个值,每个值为图中的一个节点,对每一样本产生对应的边;
产生图后,通过图神经网络产生每一节点的高维度坐标;
相似的节点会被映射到空间中相临近的位置,产生独特的特征。
进一步地,所述图形理论以图为研究对象,图形理论中的图是由若干给定的点及连接两点的线所构成的图形,图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有的特定关系。
进一步地,所述图形理论将X维度处理后,具有{x_1,…,x_n}n个值,X维度中每个值对应图中的一个节点。
进一步地,所述多个维度进行同样的处理,m个维度,则每一维度各有{k_1,…,k_m}个独一值,产生K个节点,
K=k_1+k_2…+k_m
每个样本本身为一个节点,样本总数为N,则图的总节点数为V=K+N。
进一步地,所述图中的边产生方式为:对样本y,x维度共有x_1,x_2,…,x_n个节点,样本y与x维度之间产生的边为:(y,x_1),…,(y,x_n)。
进一步地,所述图中的边加入额外的边y_0,y_1两样本某一维度具有同一值,即(y_0,v),(y_1,v)两个边同时存在,为使y_0,y_1关系更紧密,则增加一个边(y_0,y_1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天阳宏业科技股份有限公司,未经天阳宏业科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110873070.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:火麻脱壳皮仁分离机构
- 下一篇:封桶机





