西瓜码农 - 懂技术勤分享

Spark_Transformation和Action算子

2024-05-11 3903 0

一、Transformationspark 常用的 Transformation 算子如下表：Transformation 算子Meaning（含义）map(func)对原 RDD 中每个元素运用 func 函数，并生成新的 RDDfilter(func)对原 RDD 中每个元素使用func 函数进行过滤，并生成新的 RDDflatMap(func)与 map 类似，但是每一个输…

编程技术

Spark弹性式数据集RDDs

2024-05-11 2784 0

一、RDD简介RDD 全称为 Resilient Distributed Datasets，是 Spark 最基本的数据抽象，它是只读的、分区记录的集合，支持并行操作，可以由外部数据集或其他 RDD 转换而来，它具有以下特性：一个 RDD 由一个或者多个分区（Partitions）组成。对于 RDD 来说，每个分区会被一个计…

编程技术

Spark累加器与广播变量

2024-05-11 2748 0

一、简介在 Spark 中，提供了两种类型的共享变量：累加器 (accumulator) 与广播变量 (broadcast variable)：累加器：用来对信息进行聚合，主要用于累计计数等场景；广播变量：主要用于在节点间高效分发大对象。二、累加器这里先看一个具体的场景，对于正常的累计求和，如果在集…

编程技术

Spark部署模式与作业提交

2024-05-11 2672 0

一、作业提交1.1 spark-submitSpark 所有模式均使用 spark-submit 命令提交作业，其格式如下：./bin/spark-submit \--class <main-class> \ # 应用程序主入口类--master <master-url> \ # 集群的 Master Url--deploy-mode <deploy-mode> \ # 部…

编程技术

Spark简介

2024-05-11 2629 0

一、简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab，2013 年被捐赠给 Apache 软件基金会，2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算，Spark 可以带来上百倍的性能提升，因此它成为继 MapReduce 之后，最为广泛使用的分布式计算框架。二、特…

网络技术

大数据开发知识点总结(三)

2023-02-09 2722 0

十一、Spark1.Spark介绍1.1 什么是spark基于内存的分布式计算框架只负责算不负责存spark 在离线计算功能上类似于mapreduce的作用1.2 为什么用sparkMapReduce的缺点运行速度慢（没有充分利用内存）接口比较简单，仅支持Map Reduce功能比较单一只能做离线计算不适合迭代计算…

编程技术

大数据开发知识点总结(二)

2023-02-09 2615 0

七、Sqoop实战1 Mysql数据导入HDFS上.1. 全量导入：将mysql表中全部数据都导入HDFS，如果HDFS中存在这个目录的话就会报错，默认存储的HDFS目录是 /user/root/XXX.bin/sqoop import (在sqoop的安装目录内，import表名是导入)--connect jdbc:mysql://192.168.52.130:330…

编程技术

大数据开发知识点总结

2023-02-07 23046 0

一、HDFS1.基本操作：查看所有命令 hadoop fs1、查看所有目录及其文件 hadoop fs -ls /2、hdfs文件系统创建目录 hadoop fs -mkdir /input（用于测试代码）2.1、hdfs文件系统创建目录（批量）hadoop fs -mkdir -p /inout/tmp 在input文件夹内创建tmp文件夹3、hdfs文件系统创建文…

最新发布