261просмотров
28 октября 2025 г.
📷 ФотоScore: 287
⛈ Шпаргалка для старта в Spark
Прочитай, чтобы не пропасть на 23 года, как Купер. 🔢 Минимум по Spark API SparkSession — точка входа
.read / .write — чтение и запись файлов
.select(), .filter(), .groupBy().agg() — базовые трансформации
.withColumn() — добавление новых колонок
.join() — объединение таблиц
spark.sql() — SQL-запросы внутри Spark 🔢 Архитектура Spark Spark - про распределённую обработку
Driver и Executors
Transformation vs Action (ленивое выполнение - очень важно)
Понимать: Spark не “как Pandas”, а как pipeline 🔢 Умение запускать локально pyspark в терминале
.py скрипт + spark-submit
Jupyter Notebook с findspark или pyspark в sys.path 🔢 Форматы файлов CSV / JSON / Parquet — как читать, как писать
.parquet — быстрый и сжатый формат (приоритетно) .partitionBy() — деление по партициям 🔢 SQL + Python Знать базовый SQL
Уметь писать функции на Python (например, для UDF или логики фильтрации)
Понимать базовые типы данных: строки, даты, числа, null'ы 🔢 Что бы я отложил на потом (на старте не нужно): Понимать в деталях RDD
Углубляться в конфигурацию кластера
Использовать Spark Streaming, GraphX, MLlib
Заморачиваться с YARN, Kubernetes, Scala (с последним сейчас разбираюсь) ✨ Если большинство пунктов знаешь, то ты уже можешь: ✅ Обрабатывать сырые файлы в CSV, JSON
✅ Делать базовую очистку и фильтрацию данных
✅ Объединять данные из нескольких источников
✅ Готовить витрины или фичи для ML
✅ Сохранять результаты в Parquet или Hive Spark может быть особенно страшен вначале.
Это просто другой уровень работы с данными.
Поэтому если ты уже знаком в SQL и Python, то все по силам. Вообще тема глубокая и не простая, буду постепенно раскручивать.