1.4Kпросмотров
97.8%от подписчиков
25 декабря 2025 г.
Score: 1.6K
Как я сделал стенд ближе к реальной работе Последние несколько дней у меня прошли в пересборках, отладке, миграции Docker на другой диск и странных падениях. Я переставил PyCharm, и новый интерфейс мне, кстати, очень понравился. Особенно прикольно контрастная тема - выколи глаз. Какие результаты: ✅ в стенде стабильно поднялись контейнеры Airflow
✅ и появился S3-слой через MinIO (как учебный data lake) Это уже меняет проект: 1) Появилась оркестрация, а не ручные запускалки До этого любой пайплайн — это набор команд, когда нужно не перепутать путь, переменные, запустить нужный скрипт в PG или psql через docker.
С Airflow все упрощается и появляется инженерная составляющая: • порядок шагов, • логи, • ретраи, • прозрачность - видно, что и где сломалось. 2) Появился storage-слой, который похож на прод Часто на проектах реплики источников лежат на hdfs / S3.
S3-слой — аналог структуру данных, которую можно перезапускать, проверять, переиспользовать: • raw/stg/…, • партиции, • понятные префиксы, • контроль результата. Уже создались бакеты, нужно проверить чтение и трансформации. 3) Идемпотентность стала частью процесса Я уже запустил простой DAG, который делает базовую вещь:
RAW → промежуточный результат в temp table PG → идемпотентная запись в PG (перезапуск не создаёт дубли). Опять же, интересно записать на S3. Это один из тех моментов, когда проект перестаёт быть набором базовых сервисов и начинает становиться сквозным пайплайном, который можно развивать дальше: витрины, DQ, мониторинг, расписания. Интересная контрольная точка, потому что именно такого стенда мне не хватало - просто нажал на кнопку, и у тебя разворачивается архитектура на ПК. Вчера радовался, как ребенок, потому что уже очень давно хотел такое собрать. А когда мой DAG в Airflow увидел файл в директории проекта, сделал по кнопке transform и записал в PG, я был счастлив! #путь_DE