[发明专利]基于Spark平台的快速高精度语义相关度计算方法在审
申请号: | 201710152586.7 | 申请日: | 2017-03-15 |
公开(公告)号: | CN106951407A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 蔡晨晓;徐杨;卜京;殷明慧;毕涛;李旭 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Spark平台的快速高精度语义相关度计算方法,该方法包括在服务器上构建HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据,将数据转换为RDD并将其存储在内存中;将所有任务分为不同的Stage,然后同时运行各个任务;对RDD进行预处理,将RDD中的数据转换为纯文本的形式,过滤与语义相关度计算无关的概念和词语;构建“概念—词语”向量空间;计算词语语义相关度。相对于传统的单机计算,本发明提出的语义相关度计算方法在构建语义空间时,计算速度提高了数倍,同时具有较高的精度。 | ||
搜索关键词: | 基于 spark 平台 快速 高精度 语义 相关 计算方法 | ||
【主权项】:
一种基于Spark平台的快速高精度语义相关度计算方法,其特征在于,包括以下步骤:步骤1、在物理服务器上构建HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;步骤2、通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据,将读取的数据转换为弹性分布式数据集RDD并根据用户程序设定的RDD中Partition数目来启动一定数目的并发线程数读取数据,并将其存储在系统内存中;步骤3、根据所述RDD中的分区Partition之间的依赖关系,Spark平台将所有任务分为不同的任务组Stage,然后运行各个Stage中的任务;步骤4、对数据进行预处理,将步骤3中缓存的RDD中的数据转换为纯文本的形式,过滤与语义相关度计算无关的概念和词语;步骤5、构建“概念—词语”向量空间,将步骤4中预处理的文本内容进行向量化,转化为“概念—词语”空间;并通过特征项的权重计算,计算每一个特征项的权重;从“概念—词语”空间中抽取“词语”向量,计算两个词语的语义相关度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710152586.7/,转载请声明来源钻瓜专利网。
- 上一篇:二维混合机
- 下一篇:一种用于制备3D打印耗材的混合装置