
Spark_Transformation和Action算子
一、Transformationspark 常用的 Transformation 算子如下表:Transformation 算子Meaning(含义)map(func)对原 RDD 中每个元素运用 func 函数,并生成新的 RDDfilter(func)对原 RDD 中每个元素使用func 函数进行过滤,并生成新的 RDDflatMap(func)与 map 类似,但是每一个输…
一、Transformationspark 常用的 Transformation 算子如下表:Transformation 算子Meaning(含义)map(func)对原 RDD 中每个元素运用 func 函数,并生成新的 RDDfilter(func)对原 RDD 中每个元素使用func 函数进行过滤,并生成新的 RDDflatMap(func)与 map 类似,但是每一个输…
一、RDD简介RDD 全称为 Resilient Distributed Datasets,是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特性:一个 RDD 由一个或者多个分区(Partitions)组成。对于 RDD 来说,每个分区会被一个计…
一、简介在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable):累加器:用来对信息进行聚合,主要用于累计计数等场景;广播变量:主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景,对于正常的累计求和,如果在集…
一、作业提交1.1 spark-submitSpark 所有模式均使用 spark-submit 命令提交作业,其格式如下:./bin/spark-submit \--class <main-class> \ # 应用程序主入口类--master <master-url> \ # 集群的 Master Url--deploy-mode <deploy-mode> \ # 部…
一、简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最为广泛使用的分布式计算框架。二、特…
十一、Spark1.Spark介绍1.1 什么是spark基于内存的分布式计算框架只负责算 不负责存spark 在离线计算 功能上 类似于mapreduce的作用1.2 为什么用sparkMapReduce的缺点运行速度慢 (没有充分利用内存)接口比较简单,仅支持Map Reduce功能比较单一 只能做离线计算不适合迭代计算…
七、Sqoop实战1 Mysql数据导入HDFS上.1. 全量导入:将mysql表中全部数据都导入HDFS,如果HDFS中存在这个目录的话就会报错,默认存储的HDFS目录是 /user/root/XXX.bin/sqoop import (在sqoop的安装目录内,import表名是导入)--connect jdbc:mysql://192.168.52.130:330…
一、HDFS1.基本操作:查看所有命令 hadoop fs1、查看所有目录及其文件 hadoop fs -ls /2、hdfs文件系统创建目录 hadoop fs -mkdir /input(用于测试代码)2.1、hdfs文件系统创建目录(批量)hadoop fs -mkdir -p /inout/tmp 在input文件夹内创建tmp文件夹3、hdfs文件系统创建文…