Chapter 15 How Spark Runs on a Cluster Spark如何在集群上的运行
到目前为止,在书中,我们将重点放在Spark作为编程接口的属性上。我们已经讨论了结构化API如何执行逻辑操作,将其分解为逻辑计划,并将其转换为实际由跨机器集群执行的弹性分布式数据集(RDD)操作组成的物理计划。本章主要讨论 Spark 执行该代码时会发生什么。我们以一种不知实现的方式讨论这个问题,这既不依赖于您正在使用的集群管理器,也不依赖于您正在运行的代码。一天结束时,所有 Spark 代码都以相同的方式运行。