Если хотели поиграться с trino iceberg и minio, тот вот репозиторий с docker compose настройками. Можно провалиться в кишки таблицы iceberg на s3, ну и посмотреть на логику работы trino в ui. Для развертывания трино необходим новый тип CPU, не везде может запуститься. Но в крайнем случае можно VPS арендовать на время 😉 https://github.com/ivanshamaev/trino-iceberg-minio #trino #iceberg #minio
Data Engineering / Инженерия данных / Data Engineer / DWH
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных. ✔ DWH / SQL ✔ Airflow / Python / ETL / dbt / Spark ✔ AI Agents Рекламу не размещаю Вопросы: @iv_shamaev | datatalks.ru
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Оптимизация запросов в Trino Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект. https://ivan-shamaev.ru/trino-query-optimizer/ Также на днях вышел перевод книги Trino. Анализ больших данных. Первая глава и оглавление доступны для просмотра #trino #iceberg
Первые 3 главы Designing Data-Intensive Applications, 2nd Edition Глава 1. Компромиссы в архитектуре систем данных Глава 2. Определение нефункциональных требований Глава 3. Модели данных и языки запросов #DesigningDataIntensiveApplications
Обзор Trino vs Starrocks Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++. На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может...
Настроение четверга
Как устроена работа Iceberg на примере Trino и Rest Catalog? Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java. В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку). Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog. https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/ #Trino #Ice...
Глава 5. Кодирование и Эволюция (Encoding and Evolution) Продолжение перевода книги «Designing Data-Intensive Applications, 2nd Edition» Статья рассматривает, как различные форматы кодирования данных (JSON, XML, Protocol Buffers, Avro и др.) обеспечивают поддержку эволюции — то есть возможности изменять структуры данных (схемы), сохраняя совместимость между старым и новым кодом. Обсуждаются два вида совместимости: обратная (новый код читает старые данные) и прямая (старый код читает данные, сдел...
Data Pipelines with Apache Airflow Orchestration for Data and AI Second Edition 2026 Второе издание (скачено с сайта astronomer бесплатно)
SmartData 2024: Александр Токарев - Пишем свой cluster manager для Apache Spark https://youtu.be/oDuL8-ptFyk?si=VO_QTc7E7S8y-16v
ClickHouse выпустил agent-skills Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели. По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor. GitHub - ClickHouse/agent-skills: The o...