Best Practices für ETL-Prozesse mit Databricks und Apache Spark

08.03.2025

Data Lakehouse

In der heutigen datengetriebenen Welt sind ETL-Prozesse (Extract, Transform, Load) das Rückgrat jeder analytischen Datenplattform. Unternehmen müssen riesige Mengen an strukturierten und unstrukturierten Daten aus verschiedenen Quellen erfassen, transformieren und für Analysen bereitstellen.

Traditionelle ETL-Ansätze stoßen bei wachsenden Datenmengen, Echtzeit-Anforderungen und komplexen Transformationen oft an ihre Grenzen. Apache Spark und Databricks lösen diese Herausforderungen mit einer skalierbaren, performanten und Cloud-basierten Architektur, die moderne ETL-Prozesse erheblich verbessert.

Warum Databricks & Apache Spark für ETL?

✅ Hohe Skalierbarkeit – Verarbeitung von Terabyte bis Petabyte an Daten mit verteiltem Computing
✅ Batch & Streaming – Unterstützung sowohl für klassische als auch für Echtzeit-Datenpipelines
✅ Optimierte Leistung – Adaptive Query Execution, Caching & optimierte Speicherformate
✅ Kosteneffizienz – Dynamische Skalierung & Cluster-Optimierung
✅ Governance & Sicherheit – Unity Catalog für Zugriffskontrolle & Compliance

Dieser Artikel zeigt die Best Practices für ETL-Prozesse mit Databricks und Apache Spark, um schnellere, stabilere und kosteneffizientere Pipelines aufzubauen.

Datenaufnahme: Datenquellen effizient einbinden

Ein stabiler ETL-Prozess beginnt mit einer zuverlässigen und performanten Datenaufnahme. In Databricks gibt es verschiedene Möglichkeiten, Datenquellen effizient anzubinden – von Cloud-Speichern über relationale Datenbanken bis hin zu Echtzeit-Streams.

Verbindung zu Cloud-Speichern (S3, ADLS, GCS)

Daten liegen heute oft in Data Lakes auf Cloud-Speichern wie Amazon S3, Azure Data Lake Storage (ADLS) oder Google Cloud Storage (GCS).

Best Practices:

✔ Native Konnektoren nutzen: Databricks bietet optimierte Konnektoren für Cloud-Speicher, die schneller sind als Standard-APIs.
✔ Partitionierung nutzen: Daten sollten bereits auf Speicherebene partitioniert sein, um das Laden zu beschleunigen.
✔ Delta Lake als Zwischenschicht verwenden: Rohdaten in Delta-Format konvertieren, um Abfragen und Updates zu optimieren.

📌 Beispiel: Daten aus S3 mit Spark einlesen

df = spark.read.format("parquet").load("s3://mein-bucket/daten/")
df.display()

Direktzugriff auf relationale Datenbanken

Viele Unternehmen speichern Daten in PostgreSQL, MySQL, SQL Server oder Oracle. Mit Databricks können diese direkt und effizient angebunden werden.

Best Practices:

✔ JDBC-Treiber verwenden – Databricks bietet optimierte JDBC-Verbindungen für gängige Datenbanken.
✔ Pushdown-Funktionen nutzen – SQL-Filter direkt in die Datenbank absetzen, um die Datenmenge zu reduzieren.
✔ Incremental Loading implementieren – Nur neue oder geänderte Daten laden, um Performance & Kosten zu optimieren.

📌 Beispiel: PostgreSQL-Daten in Spark laden

jdbc_url = "jdbc:postgresql://meinserver:5432/meinedatenbank"
df = spark.read \
    .format("jdbc") \
    .option("url", jdbc_url) \
    .option("dbtable", "kunden") \
    .option("user", "mein_user") \
    .option("password", "mein_passwort") \
    .load()
df.display()

Streaming-Datenquellen mit Kafka & Delta Live Tables

Echtzeit-Datenverarbeitung wird immer wichtiger – etwa für IoT-Daten, Finanztransaktionen oder Web-Tracking. Databricks unterstützt Apache Kafka, Event Hubs und Delta Live Tables für Streaming-ETL.

Best Practices:

✔ Delta Live Tables (DLT) nutzen – Automatisierte ETL-Pipelines für Streaming- und Batch-Daten.
✔ Structured Streaming bevorzugen – Spark Structured Streaming ist robuster als klassische Streaming-Frameworks.
✔ Checkpoints & Fault Tolerance einrichten – Sicherstellen, dass Streaming-Daten nicht verloren gehen.

📌 Beispiel: Kafka-Stream in Databricks lesen

df = spark.readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "kafka-broker:9092") \
    .option("subscribe", "meintopic") \
    .load()
df.display()

Die richtige Datenaufnahme entscheidet über die ETL-Performance

✅ Cloud-Speicher optimal nutzen für große Datenmengen
✅ JDBC für relationale Datenbanken mit Pushdown-Optimierungen
✅ Streaming mit Kafka & Delta Live Tables, um Echtzeit-Daten zu verarbeiten

Die richtige Datenaufnahme ist die Basis für einen performanten ETL-Prozess. Im nächsten Abschnitt geht es um die Transformation der Daten – effizient und skalierbar mit Spark! 🚀

Datenverarbeitung: Skalierbare und performante Transformationen

Sobald die Daten in Databricks geladen wurden, beginnt der wichtigste Schritt im ETL-Prozess: die Transformation. Hier werden Rohdaten bereinigt, angereichert und für Analysen vorbereitet.

Apache Spark bietet leistungsstarke Funktionen für die parallele Datenverarbeitung – aber um maximale Performance und Effizienz zu erreichen, sind einige Best Practices entscheidend.

Partitionierung & Optimierung für schnelle Abfragen

Partitionierung ist eine der wichtigsten Methoden, um Daten effizient zu verarbeiten. Statt große Tabellen vollständig zu scannen, können Abfragen nur die benötigten Partitionen durchsuchen.

Best Practices:

✔ Partitionierung nach häufig genutzten Spalten (z. B. datum, region, kunde_id)
✔ Dynamische Partitionierung aktivieren, um Daten intelligent zu verteilen
✔ Z-Ordering mit Delta Lake nutzen, um Abfragen weiter zu beschleunigen

📌 Beispiel: Daten nach Datum partitionieren

df.write.partitionBy("jahr", "monat").format("delta").save("/mnt/delta/daten")

📌 Beispiel: Z-Ordering in Delta Lake für bessere Performance

OPTIMIZE delta.`/mnt/delta/daten` ZORDER BY (kunde_id);

Broadcast Joins & Adaptive Query Execution (AQE)

Joins können eine große Performance-Bremse sein, wenn sie nicht optimiert werden. Spark bietet zwei leistungsstarke Mechanismen zur Verbesserung:

1️⃣ Broadcast Joins: Kleinere Tabellen werden an alle Worker verteilt, um teure Shuffles zu vermeiden.
2️⃣ Adaptive Query Execution (AQE): Spark passt Query-Pläne dynamisch an, um die beste Strategie zu wählen.

Best Practices:

✔ Kleine Tabellen mit .broadcast() explizit markieren
✔ AQE aktivieren, um Spark automatisch Joins optimieren zu lassen

📌 Beispiel: Broadcast Join für schnelle Verknüpfungen

from pyspark.sql.functions import broadcast

df_groß = spark.read.parquet("/mnt/delta/große_tabelle")
df_klein = spark.read.parquet("/mnt/delta/kleine_tabelle")
df_joined = df_groß.join(broadcast(df_klein), "id", "inner")
df_joined.display()

📌 Beispiel: Adaptive Query Execution aktivieren

spark.conf.set("spark.sql.adaptive.enabled", "true")

Umgang mit fehlenden & fehlerhaften Daten

In realen Datenpipelines gibt es oft fehlende, fehlerhafte oder doppelte Daten, die die Analyse verfälschen können. Eine saubere Datenverarbeitung ist daher essenziell.

Best Practices:

✔ Null-Werte mit sinnvollen Standardwerten ersetzen
✔ Duplikate frühzeitig entfernen, um Rechenzeit zu sparen
✔ Regeln für Datenbereinigung & Validierung definieren

📌 Beispiel: Fehlende Werte ersetzen & Duplikate entfernen

df_clean = df.fillna({"umsatz": 0, "produktname": "unbekannt"}) \
             .dropDuplicates(["kunde_id", "datum"])
df_clean.display()

📌 Beispiel: Datenvalidierung mit Delta Live Tables

def saubere_daten():
    return (
        spark.read.format("delta").load("/mnt/delta/roh_daten")
        .filter("umsatz IS NOT NULL")
        .dropDuplicates(["kunde_id", "datum"])
    )

Effiziente Transformationen für schnelle ETL-Pipelines

✅ Partitionierung & Z-Ordering für schnellere Abfragen
✅ Broadcast Joins & AQE für optimierte Joins
✅ Datenqualität sicherstellen durch Bereinigung & Validierung

Mit diesen Best Practices bleibt die Datenverarbeitung skalierbar, kosteneffizient und performant. 🚀

Daten speichern: Delta Lake als Grundlage für robuste ETL-Pipelines

Nachdem die Daten extrahiert und transformiert wurden, müssen sie effizient gespeichert werden – schnell abrufbar, konsistent und fehlertolerant. Hier kommt Delta Lake ins Spiel, das Databricks zu einer leistungsfähigen und stabilen ETL-Plattform macht.

Warum Delta Lake klassische Data Warehouses schlägt

Delta Lake kombiniert die Flexibilität eines Data Lakes mit den Transaktionssicherheiten eines Data Warehouses.

🔹 ACID-Transaktionen: Garantiert konsistente und zuverlässige Datenverarbeitung
🔹 Schema-Evolution: Automatische Anpassung des Schemas bei neuen Spalten
🔹 Change Data Capture (CDC): Nachverfolgung von Änderungen für inkrementelle Updates
🔹 Time Travel: Historische Versionen der Daten abrufbar für Audits oder Fehlerkorrekturen

📌 Beispiel: Delta-Tabelle speichern

df.write.format("delta").mode("overwrite").save("/mnt/delta/umsatzdaten")

ACID-Transaktionen für sichere Datenverarbeitung

Ein großes Problem klassischer Data Lakes ist, dass parallele Schreibvorgänge Inkonsistenzen oder unvollständige Daten verursachen können. Delta Lake löst das mit ACID-Transaktionen.

Best Practices:

✔ MERGE-Funktion nutzen, um Updates effizient durchzuführen
✔ DELETE & UPDATE direkt in Delta-Tables anwenden
✔ Automatische Versionskontrolle nutzen, um Änderungen rückgängig zu machen

📌 Beispiel: Datensätze mit MERGE aktualisieren

MERGE INTO ziel_tabelle AS z
USING neue_daten AS n
ON z.id = n.id
WHEN MATCHED THEN 
  UPDATE SET z.umsatz = n.umsatz
WHEN NOT MATCHED THEN 
  INSERT (id, umsatz) VALUES (n.id, n.umsatz);

📌 Beispiel: Alte Version wiederherstellen („Time Travel“)

SELECT * FROM delta.`/mnt/delta/umsatzdaten` VERSION AS OF 5;

Datenschema-Evolution & Change Data Capture (CDC)

Bei wachsenden Datenmengen ändern sich oft die Strukturen – neue Spalten kommen hinzu, alte fallen weg. Statt fehlerhafte Abfragen zu riskieren, kann Schema Evolution genutzt werden.

Best Practices:

✔ AUTO MERGE aktivieren, um neue Spalten automatisch ins Schema zu übernehmen
✔ CDC mit Delta Lake nutzen, um nur geänderte Datensätze zu verarbeiten
✔ Change Feeds aktivieren, um Änderungen für DWH oder Echtzeit-Analysen zu tracken

📌 Beispiel: Automatische Schema-Evolution aktivieren

spark.conf.set("spark.databricks.delta.schema.autoMerge.enabled", "true")
df.write.format("delta").mode("append").option("mergeSchema", "true").save("/mnt/delta/kunden")

📌 Beispiel: Nur geänderte Datensätze abrufen (Change Feed)

SELECT * FROM table_changes('umsatzdaten', 10);

Delta Lake als Herzstück eines modernen ETL-Prozesses

✅ ACID-Transaktionen für zuverlässige Datenverarbeitung
✅ Schema-Evolution & Change Data Capture für flexible Pipelines
✅ Time Travel & Versionierung für maximale Kontrolle

Mit Delta Lake können ETL-Prozesse stabil, skalierbar und fehlertolerant umgesetzt werden – ein echter Gamechanger für datengetriebene Unternehmen. 🚀

Automatisierung & Workflow-Management

Ein effizienter ETL-Prozess erfordert mehr als nur schnelle Verarbeitung – er muss automatisiert, zuverlässig und skalierbar sein. Databricks bietet leistungsstarke Werkzeuge, um ETL-Workflows zu orchestrieren, Fehler zu überwachen und Skalierung zu optimieren.

ETL-Pipelines mit Databricks Workflows orchestrieren

Statt einzelne Jobs manuell auszuführen, können Databricks Workflows genutzt werden, um komplexe ETL-Pipelines mit Abhängigkeiten zu verwalten.

Best Practices:

✔ Workflows mit Job-Abhängigkeiten definieren, um ETL-Schritte in der richtigen Reihenfolge auszuführen
✔ Retries & Fehlerhandling einbauen, damit Prozesse auch bei temporären Fehlern stabil bleiben
✔ Event-gesteuerte Workflows verwenden, um ETL-Pipelines bei neuen Daten automatisch auszulösen

📌 Beispiel: ETL-Pipeline mit Workflows aufsetzen
1️⃣ Extraktion (Daten aus S3 laden)
2️⃣ Transformation (Daten bereinigen & aggregieren)
3️⃣ Speicherung (Delta Lake aktualisieren)

Diese Abhängigkeiten lassen sich in Databricks Workflows definieren:

import databricks.workflow as wf

job = wf.Job.create(
    name="ETL-Pipeline",
    tasks=[
        wf.Task(name="Datenaufnahme", notebook_path="/ETL/01_datenaufnahme"),
        wf.Task(name="Transformation", notebook_path="/ETL/02_transformation", depends_on="Datenaufnahme"),
        wf.Task(name="Speicherung", notebook_path="/ETL/03_speicherung", depends_on="Transformation"),
    ]
)

Automatische Skalierung & Cluster-Optimierung

ETL-Jobs können je nach Datenmenge stark schwanken. Eine manuelle Cluster-Konfiguration führt entweder zu hohen Kosten oder ineffizienter Performance.

Lösung: Automatische Skalierung & Cluster-Optimierung

Best Practices:

✔ Auto-Scaling aktivieren, damit Cluster sich dynamisch anpassen
✔ Spot-Instances (AWS) oder Low-Priority VMs (Azure) nutzen, um Kosten zu senken
✔ Photon-Engine aktivieren, um Spark-Workloads auf modernen CPUs/GPU-Architekturen schneller laufen zu lassen

📌 Beispiel: Auto-Scaling für ein Cluster aktivieren

{
  "autoscale": {
    "min_workers": 2,
    "max_workers": 10
  }
}

📌 Beispiel: Spark-Parameter für Cluster-Optimierung setzen

spark.conf.set("spark.sql.shuffle.partitions", "200")  # Verhindert zu viele kleine Partitionen
spark.conf.set("spark.databricks.io.cache.enabled", "true")  # Aktiviert Caching für schnellere Abfragen

Logging, Monitoring & Fehlerhandling

Ein gut überwachter ETL-Prozess erkennt Probleme frühzeitig und kann sich selbst wiederherstellen.

Best Practices:

✔ Logging mit Delta Lake – Alle ETL-Schritte protokollieren
✔ Alerts & Monitoring mit Databricks Jobs – Warnmeldungen bei Fehlern versenden
✔ Try-Catch Blöcke in Notebooks nutzen, um Fehler zu behandeln

📌 Beispiel: Logging in eine Delta-Tabelle schreiben

from datetime import datetime
from pyspark.sql import Row

log_data = [Row(timestamp=datetime.now(), job="Datenaufnahme", status="erfolgreich")]
log_df = spark.createDataFrame(log_data)
log_df.write.mode("append").format("delta").save("/mnt/delta/logs")

📌 Beispiel: Fehlerhandling in einer ETL-Transformation

try:
    df = spark.read.parquet("/mnt/daten/")
    df.transform()  # Fiktive Transformation
    df.write.format("delta").save("/mnt/delta/ergebnisse")
except Exception as e:
    print(f"Fehler: {str(e)}")  # Hier könnte ein Alert gesendet werden

Automatisierte Workflows machen ETL effizient & skalierbar

✅ Databricks Workflows für Abhängigkeitsmanagement & Automatisierung
✅ Dynamische Cluster-Skalierung für optimale Performance & Kostenkontrolle
✅ Monitoring & Logging für resiliente ETL-Pipelines

Mit diesen Best Practices lassen sich zuverlässige, hochverfügbare und kosteneffiziente ETL-Prozesse realisieren. 🚀

Fazit & nächste Schritte

Die wichtigsten Erkenntnisse

Ein effizienter ETL-Prozess mit Databricks und Apache Spark basiert auf Best Practices für Datenverarbeitung, Automatisierung und Kostenkontrolle. Die zentralen Punkte:

✅ Datenaufnahme: Strukturierte und unstrukturierte Daten effizient in Databricks integrieren
✅ Transformation: Spark-Optimierungen wie Partitioning und Caching nutzen
✅ Speicherung: Delta Lake für ACID-Transaktionen, Change Data Capture & Time Travel einsetzen
✅ Automatisierung: Workflows mit Databricks Jobs und Auto-Scaling für zuverlässige ETL-Prozesse
✅ Kosten & Performance: Cluster-Optimierung, Delta Lake-Optimierung & Monitoring für maximale Effizienz

Mit diesen Best Practices lassen sich leistungsstarke, skalierbare und kosteneffiziente ETL-Pipelines aufbauen. 🚀

Nächste Schritte: Wie geht es weiter?

🔹 Detaillierter Kostenoptimierungs-Guide: Mehr zum Thema Kostenkontrolle in Databricks in einem separaten Artikel
🔹 Real-World Use Cases: Praxisbeispiele für ETL-Pipelines in verschiedenen Branchen
🔹 Machine Learning mit Databricks: Wie sich ETL mit ML-Modellen kombinieren lässt

Bleib dran – oder starte direkt mit der Optimierung deinen eigenen ETL-Pipelines in Databricks! 🎯

Best Practices für ETL-Prozesse mit Databricks und Apache Spark

Best Practices für ETL-Prozesse mit Databricks und Apache Spark

Best Practices für ETL-Prozesse mit Databricks und Apache Spark

Warum Databricks & Apache Spark für ETL?

Datenaufnahme: Datenquellen effizient einbinden

Verbindung zu Cloud-Speichern (S3, ADLS, GCS)

Best Practices:

Direktzugriff auf relationale Datenbanken

Best Practices:

Streaming-Datenquellen mit Kafka & Delta Live Tables

Best Practices:

Die richtige Datenaufnahme entscheidet über die ETL-Performance

Datenverarbeitung: Skalierbare und performante Transformationen

Partitionierung & Optimierung für schnelle Abfragen

Best Practices:

Broadcast Joins & Adaptive Query Execution (AQE)

Best Practices:

Umgang mit fehlenden & fehlerhaften Daten

Best Practices:

Effiziente Transformationen für schnelle ETL-Pipelines

Daten speichern: Delta Lake als Grundlage für robuste ETL-Pipelines

Warum Delta Lake klassische Data Warehouses schlägt

ACID-Transaktionen für sichere Datenverarbeitung

Best Practices:

Datenschema-Evolution & Change Data Capture (CDC)

Best Practices:

Delta Lake als Herzstück eines modernen ETL-Prozesses

Automatisierung & Workflow-Management

ETL-Pipelines mit Databricks Workflows orchestrieren

Best Practices:

Automatische Skalierung & Cluster-Optimierung

Best Practices:

Logging, Monitoring & Fehlerhandling

Best Practices:

Automatisierte Workflows machen ETL effizient & skalierbar

Fazit & nächste Schritte

Die wichtigsten Erkenntnisse

Nächste Schritte: Wie geht es weiter?

Andere Artikel

BI-ready: Den Gold-Layer in der Medallienarchitektur richtig designen

BI-ready: Den Gold-Layer in der Medallienarchitektur richtig designen

BI-ready: Den Gold-Layer in der Medallienarchitektur richtig designen

Orchestrierung mit Databricks Workflows – von einfach bis clever

Orchestrierung mit Databricks Workflows – von einfach bis clever

Orchestrierung mit Databricks Workflows – von einfach bis clever