Spark Connect 快速入门远程连接 Spark 集群实战

张

张建站

2026/4/10 2:10:30

10分钟阅读

1. 什么是 Spark ConnectSpark Connect 是 Spark 提供的一种远程连接能力它把客户端和 Spark 服务端解耦开来。客户端通过 DataFrame API 描述计算逻辑服务端负责真正执行 Spark 任务并返回结果。可以把它理解成你继续写熟悉的 PySpark DataFrame 代码但真正执行计算的不再是本地会话而是远程 Spark 服务端。2. 启动 Spark Connect 服务端要使用 Spark Connect首先需要启动支持 Spark Connect 的 Spark 服务端。官方 Quickstart 中使用的是start-connect-server.sh。source~/.profile$HOME/sbin/start-connect-server.sh第一行用于加载环境变量第二行用于启动 Spark Connect Server。3. 连接前先停止普通 SparkSession在创建远程 Spark Connect 会话之前需要先停止已有的普通本地 SparkSession因为普通 SparkSession 和远程 Spark Connect Session 不能共存。frompyspark.sqlimportSparkSession SparkSession.builder.master(local[*]).getOrCreate().stop()4. 创建远程 SparkSession服务端启动后就可以在客户端通过remote方法连接 Spark Connect Server。frompyspark.sqlimportSparkSession sparkSparkSession.builder.remote(sc://localhost:15002).getOrCreate()这里的sc://localhost:15002表示当前客户端要连接到本机15002端口上的 Spark Connect 服务端。5. 使用 Spark Connect 创建 DataFrame远程 SparkSession 创建成功后后续的 DataFrame 使用方式和普通 Spark 基本一致。fromdatetimeimportdatetime,datefrompyspark.sqlimportRow dfspark.createDataFrame([Row(a1,b2.,cstring1,ddate(2000,1,1),edatetime(2000,1,1,12,0)),Row(a2,b3.,cstring2,ddate(2000,2,1),edatetime(2000,1,2,12,0)),Row(a4,b5.,cstring3,ddate(2000,3,1),edatetime(2000,1,3,12,0))])查看结果df.show()输出如下------------------------------------------ | a| b| c| d| e| ------------------------------------------ | 1|2.0|string1|2000-01-01|2000-01-01 12:00:00| | 2|3.0|string2|2000-02-01|2000-01-02 12:00:00| | 4|5.0|string3|2000-03-01|2000-01-03 12:00:00| ------------------------------------------这说明 Spark Connect 改变的是连接方式和执行位置而不是 DataFrame 的基本使用习惯。6. 一个最小可运行示例下面是一段可以直接跑通的最小示例。frompyspark.sqlimportSparkSessionfrompyspark.sqlimportRowfromdatetimeimportdatetime,date# 停止已有的普通 SparkSessionSparkSession.builder.master(local[*]).getOrCreate().stop()# 创建远程 Spark Connect SessionsparkSparkSession.builder.remote(sc://localhost:15002).getOrCreate()# 创建 DataFramedfspark.createDataFrame([Row(a1,b2.,cstring1,ddate(2000,1,1),edatetime(2000,1,1,12,0)),Row(a2,b3.,cstring2,ddate(2000,2,1),edatetime(2000,1,2,12,0)),Row(a4,b5.,cstring3,ddate(2000,3,1),edatetime(2000,1,3,12,0))])# 查看数据df.show()7. Spark Connect 的核心价值Spark Connect 最核心的价值在于解耦。传统方式下客户端和 Spark 执行环境关系较紧而 Spark Connect 让客户端只负责表达计算逻辑服务端负责执行任务。这种模式更适合远程开发、Notebook 连接远程 Spark、平台化建设以及服务化接入。从开发者视角看最大的好处是API 习惯几乎不变但 Spark 的使用方式变得更灵活了。8. 总结Spark Connect 不是单纯多了一种连接方式而是让 Spark 从本地绑定式使用走向远程服务式使用。你依然使用熟悉的 DataFrame API但真正的计算发生在远程 Spark 服务端。对于需要远程连接 Spark、构建轻量客户端或做平台化接入的场景来说Spark Connect 是一个值得重点关注的能力。

立创EDA vs Proteus：硬件设计工具对比及快速上手指南

立创EDA vs Proteus：硬件设计工具深度对比与实战迁移指南作为一名从Proteus转向立创EDA的硬件工程师，我深刻理解工具迁移过程中的痛点。记得第一次使用立创EDA完成商业项目时，原本预计两天的PCB设计工作，借助其云端协作和元件库仅…...

2026/4/10 2:10:48 阅读更多 →

抖音去水印终极指南：3分钟掌握批量下载技巧

抖音去水印终极指南：3分钟掌握批量下载技巧【免费下载链接】TikTokDownload 抖音去水印批量下载用户主页作品、喜欢、收藏、图文、音频项目地址: https://gitcode.com/gh_mirrors/ti/TikTokDownload 你是否曾为抖音上那些精彩视频无法保存而烦恼&#xff1…...

2026/4/10 2:10:48 阅读更多 →

台式电风扇摇头装置的设计【cad图、说明书】

台式电风扇摇头装置作为家用电器中的关键部件，其核心作用是通过机械传动实现扇头的水平或垂直摆动，从而扩大送风范围，提升用户使用体验。该装置通常由驱动机构、传动组件及支撑结构三部分构成，各部分协同工作以完成摇头功能。驱动…...

2026/4/10 2:10:52 阅读更多 →

ESP32硬件PWM控制库PWMOutESP32实战指南

1. PWMOutESP32 库深度解析：面向嵌入式工程师的 ESP32 PWM 控制实践指南 1.1 库定位与工程价值 PWMOutESP32 是一个专为 ESP32 系列微控制器设计的轻量级 PWM 输出控制库，其核心目标是提供 Arduino 风格的 pwm.analogWrite(pin, value) 接口&#xff…...

2026/4/10 2:36:05 阅读更多 →

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

1. LongerWatchDog 库概述：突破AVR看门狗定时器的固有约束在嵌入式系统开发中，看门狗定时器（Watchdog Timer, WDT）是保障系统可靠性的关键机制。传统Arduino平台（尤其是基于ATmega328P、ATmega2560等AVR架构的板卡&…...

2026/4/9 14:50:52 阅读更多 →

LeetCode 92. Reverse Linked List II 题解

LeetCode 92. Reverse Linked List II 题解题目描述给你单链表的头指针 head 和两个整数 left 和 right ，其中 left < right 。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。示例 1： 输入：head [1,2,…...

2026/4/9 8:37:26 阅读更多 →