1.6Kпросмотров
15 февраля 2026 г.
Score: 1.7K
Друзья, привет ☀️
Хочу поделиться с вами новостями по разработке DE практикума. С прошлого апдейта я закрыл два больших куска курса: модуль про качество данных и модуль про Spark jobs.
Параллельно укрепил «ядро» репозитория, чтобы стенд работал стабильнее, а новичок не тонул в вечном “а где смотреть, если упало”. Что именно добавилось. 🎯В модуле про Data Quality проверки перестали быть ручными “прогонами на удачу”. Теперь это нормальный шаг пайплайна: ключи, NULL, дубли, объёмы, диапазоны дат. И самое важное — результаты проверок пишутся в лог, чтобы можно было открыть таблицу и увидеть: что проверили, что сломалось, когда и почему. 🎯В модуле про Spark jobs я довёл тему до уровня “можно запускать как на работе”, а не только в ноутбуке. Есть разбор производительности (план, кэш, партиции шифла), есть каркас Python job под spark-submit, и отдельно — понятные инструкции по Spark-конфигам. 🎯Плюс я расширил troubleshooting: типовые ошибки, джары, окружение, куда смотреть логи и что именно проверять, если “Airflow не видит DAG”, “Spark не поднялся”, “Postgres не коннектится”. Если коротко, что получается сейчас: репозиторий превращается в цельный трек. Ты собираешь пайплайн шаг за шагом, получаешь артефакты, и учишься не просто запускать, а разбираться, когда оно падает. Осталось несколько мест на Поток-2. Если хочешь — заполни форму, я пришлю детали: формат, темп, что нужно на входе, и отвечу на вопросы.