[发明专利]基于Spark平台的快速高精度语义相关度计算方法在审
申请号: | 201710152586.7 | 申请日: | 2017-03-15 |
公开(公告)号: | CN106951407A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 蔡晨晓;徐杨;卜京;殷明慧;毕涛;李旭 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 平台 快速 高精度 语义 相关 计算方法 | ||
1.一种基于Spark平台的快速高精度语义相关度计算方法,其特征在于,包括以下步骤:
步骤1、在物理服务器上构建HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;
步骤2、通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据,将读取的数据转换为弹性分布式数据集RDD并根据用户程序设定的RDD中Partition数目来启动一定数目的并发线程数读取数据,并将其存储在系统内存中;
步骤3、根据所述RDD中的分区Partition之间的依赖关系,Spark平台将所有任务分为不同的任务组Stage,然后运行各个Stage中的任务;
步骤4、对数据进行预处理,将步骤3中缓存的RDD中的数据转换为纯文本的形式,过滤与语义相关度计算无关的概念和词语;
步骤5、构建“概念—词语”向量空间,将步骤4中预处理的文本内容进行向量化,转化为“概念—词语”空间;并通过特征项的权重计算,计算每一个特征项的权重;
从“概念—词语”空间中抽取“词语”向量,计算两个词语的语义相关度。
2.根据权利要求1所述的基于Spark平台的快速高精度语义相关度计算方法,其特征在于,步骤4中在所述Spark平台上对所述RDD数据进行预处理的具体过程为:
各个工作节点从字符串String类型的RDD中读取数据进行转换操作,先利用开源项目Cloud9提供的API将数据集转化为纯文本的形式的语料库;
进行Filter操作,过滤掉其中非停用词数少于100的概念和描述时间的概念;
进行Filter操作,过滤掉其中的停用词和稀有词。
3.根据权利要求1所述的基于Spark平台的快速高精度语义相关度计算方法,其特征在于,步骤5具体包括以下步骤:
步骤5-1,将预处理的文本内容按照TFIDF权重表示“概念—词语”矩阵的关联度;TFIDF权重是由词语在一篇文章中出现的次数乘以这个词语在整个语料库中的重要程度;所有的“概念”向量采用一系列与它相关的词语表示:Concept={Term_1:Vector_1,Term_2:Vector_2,…,Term_k:Vector_k,…,Term_n:Vector_n},Term_k为词语,Vector_k为第k维词语的权重,n为词语总维数;
进行Filter操作,将TFIDF权重值小于设定阈值的词语过滤;
步骤5-2,将步骤5-1中的“概念—词语”向量构建成“概念—词语”矩阵;提取“概念—词语”矩阵的两个“词语”向量,每个“词语”向量由与它相关的概念表示:L(w_1)={Concept_1:Vector_1,Concept_2:Vector_2,…,Concept_m:Vector_m},m为概念总维数;
步骤5-3,根据步骤5-2中的两个“词语”向量计算得到两个词语的语义相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710152586.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:二维混合机
- 下一篇:一种用于制备3D打印耗材的混合装置