⛈ Шпаргалка для старта в Spark Прочитай, чтобы не пропасть н — @spark_ru

261просмотров

28 октября 2025 г.

📷 ФотоScore: 287

⛈ Шпаргалка для старта в Spark Прочитай, чтобы не пропасть на 23 года, как Купер. 🔢 Минимум по Spark API SparkSession — точка входа .read / .write — чтение и запись файлов .select(), .filter(), .groupBy().agg() — базовые трансформации .withColumn() — добавление новых колонок .join() — объединение таблиц spark.sql() — SQL-запросы внутри Spark 🔢 Архитектура Spark Spark - про распределённую обработку Driver и Executors Transformation vs Action (ленивое выполнение - очень важно) Понимать: Spark не “как Pandas”, а как pipeline 🔢 Умение запускать локально pyspark в терминале .py скрипт + spark-submit Jupyter Notebook с findspark или pyspark в sys.path 🔢 Форматы файлов CSV / JSON / Parquet — как читать, как писать .parquet — быстрый и сжатый формат (приоритетно) .partitionBy() — деление по партициям 🔢 SQL + Python Знать базовый SQL Уметь писать функции на Python (например, для UDF или логики фильтрации) Понимать базовые типы данных: строки, даты, числа, null'ы 🔢 Что бы я отложил на потом (на старте не нужно): Понимать в деталях RDD Углубляться в конфигурацию кластера Использовать Spark Streaming, GraphX, MLlib Заморачиваться с YARN, Kubernetes, Scala (с последним сейчас разбираюсь) ✨ Если большинство пунктов знаешь, то ты уже можешь: ✅ Обрабатывать сырые файлы в CSV, JSON ✅ Делать базовую очистку и фильтрацию данных ✅ Объединять данные из нескольких источников ✅ Готовить витрины или фичи для ML ✅ Сохранять результаты в Parquet или Hive Spark может быть особенно страшен вначале. Это просто другой уровень работы с данными. Поэтому если ты уже знаком в SQL и Python, то все по силам. Вообще тема глубокая и не простая, буду постепенно раскручивать.

Другие посты @spark_ru