Orchestrate LLMs and Agents with Apache Airflow® Новая книга от Astronomer про управление агентами через airflow-ai-sdk и Human In The Loop, который появился в Airflow 3.
DataEng
Data Engineering & Distributed Systems Contact @adilkhash
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Обновленный мини-курс по Apache Kafka от небезызвестного Тима Бёргланда: Apache Kafka 101 (2025 Edition)
Очередной подгон от Astronomer про лучшие практики построения ETL/ELT пайплайнов на базе Apache Airflow 3 — Best practices for ETL and ELT pipelines with Apache Airflow 3 Небольшая электронная книга на 50 страниц, удобно использовать как справочник.
fastjsondiff - High-performance JSON comparison with a Zig-powered core Написал небольшую библиотеку для сравнения двух JSON-текстов/файлов. В Python есть популярная либа jsondiff, но её основная проблема это сильные тормоза, если на вход подать более менее крупный JSON-текст. Давно вынашивал идею реализации чего-то такого, но на Zig/Rust, т.к. чистая реализация на Python будет всё равно медленнее. По итогу получилось реализовать на Zig основную либу и Python-интерфейс к ней. pip install fastjso...
Доклады с Airflow Summit 2025 Подъехали доклады с прошедшей не так давно конференции Airflow Summit 2025, много вкусного, будет что посмотреть по вечерам: — Airflow at OpenAI — Benchmarking the Performance of Dynamically Generated DAGs — Airflow That Remembers: The Dag Versioning Era is here! — DAGLint: Elevating Airflow DAG Quality Through Automated Linting — Allegro's Airflow Journey: From On-Prem to Cloud Orchestration at Scale — Deadline Alerts in Airflow 3.1 — Beyond Logs: Unlocking Airflow...
📣 📢 13 ИИ агентов для дата инженера Ребята из Astronomer выложили 13 полезных ИИ агентов для дата инженера. В списке есть имба-агент, помогающий мигрировать Airflow 2 на Airflow 3 — migrating-airflow-2-to-3 Преимущественно агенты сконцентрированы вокруг написания и тестирования Airflow DAGs, проектирования таблиц БД, data lineage. Боевой комплект дата инженера. Из БД они умеют в Snowflake, Postgres, BigQuery. Также есть навык для работы с SQLAlchemy ORM. Установка агентов: npx skills add astro...
The Definitive Guide to Apache Airflow® 3 DAGs 146 страниц отборного мяса и лучших практик про написание DAGов для Apache Airflow 3.
XLTable - OLAP Cервер для нового стека данных Работайте с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel. Предоставьте пользователям возможность самостоятельно работать с данными, с помощью знакомого инструмента. 📈Ключевые возможности XLTable: • Аналог MS OLAP (SSAS) для больших данных • Интеграция с MS Excel по протоколу XMLA • Поддержка ClickHouse, BigQuery, Snowflake • Скоро: YDB, Greenplum • Множество групп мер, иерархий и измерений в одном кубе • Гибкие настройки кэширования • Ра...
pandas 3.0 Вышла мажорная версия самой, пожалуй, популярной библиотеки для работы с данными в Python - pandas 3.0. В новом релизе появилось два значительных изменения: новый dtype для строк str вместо привычного numpy object. По словам разработчиков это значительно улучшает производительность кода. Также теперь Copy-on-Write это единственный режим для изменения значения колонок у датафрейма, более подробно здесь. Перед миграцией на новую версия pandas необходимо прошерстить легаси код и внести и...
Data Pipelines with Apache Airflow, 2-е издание Ребята из Astronomer совершенно бесплатно раздают электронную книгу Data Pipelines with Apache Airflow®, Second Edition, by Manning. Это обновлённое издание с учётом новой 3-й ветки Airflow, в книге используется версия Apache Airflow 3.1.0. Ну и конечно же ИИ не обделили, в книге появился контент про RAG, AI Orchestration и т.д. Приятного чтения, господа! 🤓