DData Engineering / Инженерия данных / Data Engineer / DWH

Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path💻 Технологии🇬🇧 English📅 март 2026 г.

Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных. ✔ DWH / SQL ✔ Airflow / Python / ETL / dbt / Spark ✔ AI Agents Рекламу не размещаю Вопросы: @iv_shamaev | datatalks.ru

📊 Полная статистика📝 Все посты
##designingdataintensiveapplicat#trino#iceberg#grpc#protobuf#minio#restcatalog#java
2.5K
Подписчики
3.3K
Ср. охват
128.9%
Вовлечённость
20
Постов
~0.1
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

20 из 20
Ddata_engineer_path
data_engineer_path
5 нояб., 16:02

Если хотели поиграться с trino iceberg и minio, тот вот репозиторий с docker compose настройками. Можно провалиться в кишки таблицы iceberg на s3, ну и посмотреть на логику работы trino в ui. Для развертывания трино необходим новый тип CPU, не везде может запуститься. Но в крайнем случае можно VPS арендовать на время 😉 https://github.com/ivanshamaev/trino-iceberg-minio #trino #iceberg #minio

👁 7.2K
Ddata_engineer_path
data_engineer_path
8 нояб., 13:20

Оптимизация запросов в Trino Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект. https://ivan-shamaev.ru/trino-query-optimizer/ Также на днях вышел перевод книги Trino. Анализ больших данных. Первая глава и оглавление доступны для просмотра #trino #iceberg

👁 6.7K
Ddata_engineer_path
data_engineer_path
19 авг., 15:35

Первые 3 главы Designing Data-Intensive Applications, 2nd Edition Глава 1. Компромиссы в архитектуре систем данных Глава 2. Определение нефункциональных требований Глава 3. Модели данных и языки запросов #DesigningDataIntensiveApplications

👁 5.8K
Ddata_engineer_path
data_engineer_path
20 нояб., 07:03

Обзор Trino vs Starrocks Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++. На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может...

👁 4.6K
Ddata_engineer_path
data_engineer_path
11 дек., 08:06

Настроение четверга

👁 4.1K📷 photo
Ddata_engineer_path
data_engineer_path
13 нояб., 06:30

Как устроена работа Iceberg на примере Trino и Rest Catalog? Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java. В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку). Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog. https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/ #Trino #Ice...

👁 3.8K
Ddata_engineer_path
data_engineer_path
18 сент., 07:35

Глава 5. Кодирование и Эволюция (Encoding and Evolution) Продолжение перевода книги «Designing Data-Intensive Applications, 2nd Edition» Статья рассматривает, как различные форматы кодирования данных (JSON, XML, Protocol Buffers, Avro и др.) обеспечивают поддержку эволюции — то есть возможности изменять структуры данных (схемы), сохраняя совместимость между старым и новым кодом. Обсуждаются два вида совместимости: обратная (новый код читает старые данные) и прямая (старый код читает данные, сдел...

👁 3.6K
Ddata_engineer_path
data_engineer_path
15 янв., 09:49

Data Pipelines with Apache Airflow Orchestration for Data and AI Second Edition 2026 Второе издание (скачено с сайта astronomer бесплатно)

👁 3.3K
Ddata_engineer_path
data_engineer_path
13 авг., 08:51

SmartData 2024: Александр Токарев - Пишем свой cluster manager для Apache Spark https://youtu.be/oDuL8-ptFyk?si=VO_QTc7E7S8y-16v

👁 3.3K
Ddata_engineer_path
data_engineer_path
7 февр., 08:03

ClickHouse выпустил agent-skills Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели. По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor. GitHub - ClickHouse/agent-skills: The o...

👁 2.9K

Типы хуков

Нейтральный15 | 3.1K просм.
Статистика4 | 3.9K просм.
Вопрос1 | 3.8K просм.

Длина постов

Средние (200-500)7 | 3.8K просм.
Длинные (500-1000)6 | 3.0K просм.
Короткие (<200)5 | 2.8K просм.
Очень длинные (1000+)2 | 3.3K просм.

Влияние эмодзи

4.6K
С эмодзи (3)
3.0K
Без эмодзи (17)
+51.5% охвата

Типы контента

📝
16
text
3.6K просм.
📷
4
photo
2.0K просм.
Data Engineering / Инженерия данных / Data Engineer / DWH (@data_engineer_path) — Telegram-канал | PostSniper