iomete/spark Docker Image Overview

iomete/spark

iomete公共Spark镜像，已预捆绑必要的库和优化配置，用于简化Spark应用的部署与运行。

0 次下载activeiomete镜像

🚀专业版镜像服务，面向生产环境设计

中文简介版本下载

🚀专业版镜像服务，面向生产环境设计

iomete 公共 Spark 镜像文档

镜像概述和主要用途

iomete公共Spark镜像是由iomete提供的Docker镜像，基于Apache Spark官方版本构建，旨在简化Spark应用程序的部署与运行流程。该镜像预先集成了常用依赖库（如Hadoop、AWS SDK、JDBC驱动等）和性能优化配置，使开发者无需手动配置环境即可快速启动Spark集群或提交Spark作业。

核心功能和特性

1. 预捆绑常用依赖库

集成Hadoop生态组件（HDFS客户端、YARN相关工具）
包含AWS SDK、GCP SDK等云服务对接依赖
内置MySQL、PostgreSQL等主流数据库的JDBC驱动
预装PySpark运行所需的Python环境及第三方库（NumPy、Pandas等）

2. 性能优化配置

默认启用Spark内存管理优化（如spark.memory.offHeap.enabled=true）
预配置合理的Executor/Driver资源分配参数（基于容器资源自动调整）
集成Tungsten引擎加速和列式存储优化

3. 多版本与多场景支持

提供多个Spark版本标签（如3.3.0、3.4.0、3.5.0），适配不同应用需求
支持单机模式、伪分布式模式及Kubernetes集群部署

4. 轻量级与易用性

基于Alpine Linux构建，镜像体积较官方镜像减少约30%
内置spark-submit、spark-shell等工具的快捷启动脚本
支持通过环境变量或配置文件灵活调整Spark参数

使用场景和适用范围

1. 开发与测试环境

本地快速验证Spark作业逻辑（通过spark-shell或pyspark交互模式）
简化CI/CD流程中Spark应用的自动化测试

2. 生产环境部署

提交批处理作业（如ETL任务、数据清洗）
运行实时流处理应用（如基于Spark Streaming或Structured Streaming的数据流处理）
部署Spark SQL服务提供交互式查询能力

3. 云原生与容器化平台

在Kubernetes集群中部署Spark集群（配合iomete提供的Operator更佳）
集成Docker Compose快速搭建本地伪分布式集群用于演示或小型应用

使用方法和配置说明

1. 镜像拉取

通过Docker Hub拉取最新版本：

bash
docker pull iomete/spark:latest

拉取指定Spark版本（如3.4.0）：

bash
docker pull iomete/spark:3.4.0

2. 基本使用示例

启动Spark Shell（交互式测试）

bash
# Scala Shell
docker run -it --rm iomete/spark:latest spark-shell

# Python Shell (PySpark)
docker run -it --rm iomete/spark:latest pyspark

提交Spark作业

本地有打包好的Spark应用JAR包（如my-spark-app.jar）时，通过spark-submit提交：

bash
docker run -v /local/path/to/my-spark-app.jar:/app.jar \
  iomete/spark:latest \
  spark-submit \
    --class com.example.MyApp \
    --master local[*] \  # 本地模式，使用所有CPU核心
    /app.jar

启动伪分布式集群（Docker Compose）

创建docker-compose.yml文件：

yaml
version: '3'
services:
  spark-master:
    image: iomete/spark:latest
    command: bin/spark-class org.apache.spark.deploy.master.Master
    ports:
      - "7077:7077"  # Master通信端口
      - "8080:8080"  # Web UI端口
    environment:
      - SPARK_MASTER_HOST=spark-master

  spark-worker:
    image: iomete/spark:latest
    command: bin/spark-class org.apache.spark.deploy.worker.Worker spark://spark-master:7077
    environment:
      - SPARK_WORKER_MEMORY=2g  # Worker内存分配
      - SPARK_WORKER_CORES=2    # Worker CPU核心数
    depends_on:
      - spark-master

启动集群：

bash
docker-compose up -d

访问 http://localhost:8080 可查看Spark Master Web UI。

3. 配置参数说明

环境变量配置

通过-e参数传递环境变量调整Spark配置：

环境变量	说明	默认值
`SPARK_MASTER`	Spark Master地址（如`spark://host:7077`）	`local[*]`（本地模式）
`SPARK_DRIVER_MEMORY`	Driver进程内存分配	`1g`
`SPARK_EXECUTOR_MEMORY`	Executor进程内存分配	`1g`
`SPARK_EXECUTOR_CORES`	每个Executor的CPU核心数	`1`
`PYSPARK_PYTHON`	PySpark使用的Python解释器路径	`/usr/bin/python3`

示例：调整Driver内存为4G并指定Master地址

bash
docker run -e SPARK_DRIVER_MEMORY=4g -e SPARK_MASTER=spark://master:7077 iomete/spark:latest spark-submit ...

自定义Spark配置文件

通过挂载本地spark-defaults.conf覆盖默认配置：

bash
docker run -v /local/path/to/spark-defaults.conf:/opt/spark/conf/spark-defaults.conf \
  iomete/spark:latest \
  spark-submit ...

注意事项

生产环境中建议指定具体版本标签（如3.4.0）而非latest，避免版本变更导致兼容性问题
提交大型作业时，需根据实际需求通过--executor-memory、--num-executors等参数调整资源分配
如需对接外部存储（如S3、HDFS），需通过环境变量或配置文件传入访问凭证（如AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY）

查看更多 spark 相关镜像 →