Data Engineering / Инженерия данных / Data Engineer / DWH

@data_engineer_path💻 Технологии🇬🇧 English📅 март 2026 г.

Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных. ✔ DWH / SQL ✔ Airflow / Python / ETL / dbt / Spark ✔ AI Agents Рекламу не размещаю Вопросы: @iv_shamaev | datatalks.ru

📊 Полная статистика 📝 Все посты

##designingdataintensiveapplicat#trino#iceberg#grpc#protobuf#minio#restcatalog#java

2.5K

Подписчики

3.3K

Ср. охват

128.9%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

20 из 20

data_engineer_path

5 нояб., 16:02

Если хотели поиграться с trino iceberg и minio, тот вот репозиторий с docker compose настройками. Можно провалиться в кишки таблицы iceberg на s3, ну и посмотреть на логику работы trino в ui. Для развертывания трино необходим новый тип CPU, не везде может запуститься. Но в крайнем случае можно VPS арендовать на время 😉 https://github.com/ivanshamaev/trino-iceberg-minio #trino #iceberg #minio

👁 7.2K

📊 Аналитика

data_engineer_path

8 нояб., 13:20

Оптимизация запросов в Trino Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект. https://ivan-shamaev.ru/trino-query-optimizer/ Также на днях вышел перевод книги Trino. Анализ больших данных. Первая глава и оглавление доступны для просмотра #trino #iceberg

👁 6.7K

📊 Аналитика

data_engineer_path

19 авг., 15:35

Первые 3 главы Designing Data-Intensive Applications, 2nd Edition Глава 1. Компромиссы в архитектуре систем данных Глава 2. Определение нефункциональных требований Глава 3. Модели данных и языки запросов #DesigningDataIntensiveApplications

👁 5.8K

📊 Аналитика

data_engineer_path

20 нояб., 07:03

Обзор Trino vs Starrocks Кажется, что Trino выигрывает по популярности, как единый SQL инструмент под разные источники данных и возможность их объединить (Federated queries). Еще в Трино имеется фича по динамическому расширению воркеров и Velox на C++. На одном из meetup команда Авито говорила, что в Starrocks плохо обстоят дела с ограничениями по ресурсам на query. То есть может случиться, что несколько запросов заберут все ресурсы и кластер может "упасть" (возможно ошибаюсь в пересказе). Может...

👁 4.6K

📊 Аналитика

data_engineer_path

11 дек., 08:06

Настроение четверга

👁 4.1K📷 photo

📊 Аналитика

data_engineer_path

13 нояб., 06:30

Как устроена работа Iceberg на примере Trino и Rest Catalog? Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java. В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку). Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog. https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/ #Trino #Ice...

👁 3.8K

📊 Аналитика

data_engineer_path

18 сент., 07:35

Глава 5. Кодирование и Эволюция (Encoding and Evolution) Продолжение перевода книги «Designing Data-Intensive Applications, 2nd Edition» Статья рассматривает, как различные форматы кодирования данных (JSON, XML, Protocol Buffers, Avro и др.) обеспечивают поддержку эволюции — то есть возможности изменять структуры данных (схемы), сохраняя совместимость между старым и новым кодом. Обсуждаются два вида совместимости: обратная (новый код читает старые данные) и прямая (старый код читает данные, сдел...

👁 3.6K

📊 Аналитика

data_engineer_path

15 янв., 09:49

Data Pipelines with Apache Airflow Orchestration for Data and AI Second Edition 2026 Второе издание (скачено с сайта astronomer бесплатно)

👁 3.3K

📊 Аналитика

data_engineer_path

13 авг., 08:51

SmartData 2024: Александр Токарев - Пишем свой cluster manager для Apache Spark https://youtu.be/oDuL8-ptFyk?si=VO_QTc7E7S8y-16v

👁 3.3K

📊 Аналитика

data_engineer_path

7 февр., 08:03

ClickHouse выпустил agent-skills Agent Skills — это открытый стандарт для расширения возможностей ИИ-агентов с помощью модулей, которые дают им доменные знания, инструкции и повторяемые процедуры без необходимости дообучения модели. По сути это набор лучших практик работы с ClickHouse: как правильно проектировать схемы, оптимизировать запросы и настраивать загрузку данных. Далее эти skills подключаются в AI редактор, например, Copilot, Claude Code, Cursor. GitHub - ClickHouse/agent-skills: The o...

👁 2.9K

📊 Аналитика

Типы хуков

Нейтральный15 | 3.1K просм.

Статистика4 | 3.9K просм.

Вопрос1 | 3.8K просм.

Длина постов

Средние (200-500)7 | 3.8K просм.

Длинные (500-1000)6 | 3.0K просм.

Короткие (<200)5 | 2.8K просм.

Очень длинные (1000+)2 | 3.3K просм.

Влияние эмодзи

4.6K

С эмодзи (3)

3.0K

Без эмодзи (17)

+51.5% охвата

Типы контента

📝

text

3.6K просм.

📷

photo

2.0K просм.

⚠️ 0/100

Подозрительно высокий охват

#3676

из 13,386 в Технологии