Анонс стрима в следующую среду: "Разбираемся с партицированием, распределением данных и SCD на примере Greenplum" Jan 21 • 19:00 – 21:00 мск • View details & RSVP https://calendar.app.google/VNdKUZxQMmx2Agy18 Запись будет выложена позже на YouTube. Пройдёмся сверху-вниз по сервису https://gpskew.rzvde.pro , обсудим нюансы и отвечу на вопросы Запись: https://youtu.be/r04U6c1d5Tk
rzv Data Engineering
Авторский канал о том, как я понимаю инжиниринг данных. Объясняю термины, best practice, делюсь описанием рабочих задачек. См закрепы Рассчитан на новичков в DE и инженеров до Senior. Чат: t.me/+jtQ1tjvNUtwzN2My По вопросам: @razvodov_de_mentor
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
16 из 16#вести_с_полей Напоминалка про NULL в sql Null не содержит значения (мы не знаем, какое значение атрибута было "в том месте и в то время"), но хранит тип данных. На продакшене, если добавляешь новую колонку "на будущее" или гармонизируешь данные из разных…
Продолжаю помогать растущим DE каналам, потому что в своё время так же помогли мне) От автора: """ Если вы только входите в data engineering или уже «крутитесь» в рабочих процессах заходите t.me/marat_notes Разбираю в ютубе моменты работы дата-инженера и какие паттерны помогут пройти алгособесы без зубрёжки. Всё это в циклах #КакРаботаютДанные (ETL, Airflow, Spark) и #ГрокаемАлгособесы с диаграммами, кодом и пояснениями (материалы на гитхаб). Плюс честная рефлексия: как не выгорать в IT и жить с...
Через 2 часа стартуем говорить про распределённые системы на примере GP: https://telemost.yandex.ru/j/32389908564133
Мой PR в образ andruche/greenplum приняли! Забавно, что именно после ухода из найма я начал "контрибьютить в open source") 🐘 🔸 В чём вклад? Раньше было захардкожено 2 сегмента. Теперь можно сбилдить любое число от 1 до 16. Также есть предварительно собранные версии на 2, 4, 8 сегментов: $ docker run --name gp7 -p 5432:5432 -d andruche/greenplum:7 $ docker run --name gp7 -p 5432:5432 -d andruche/greenplum:7-4seg $ docker run --name gp7 -p 5432:5432 -d andruche/greenplum:7-8seg &#...
Живой пример моделирования данных с SCD2 в аналитике небольшой учебной платформы 2/2 А вот мой вариант решения https://www.db-fiddle.com/f/iG51oyoBWkfK9q1HdFUuyz/0 🔸 Что хорошо: - некоторые запросы можно (и нужно) переиспользовать - данные честные, с учётом нюансов (не учитываюся те, кто ещё не завершил этап) - с небольшой доработкой можно учесть случаи вроде "возвращения на предыдущий этап" или "бросил обучение" - автоматизирован максимум того, что можно вычислить -- не нужно обновлять какие-т...
Анонс стрима в следующую среду: "Разбираемся с партицированием, распределением данных и SCD на примере Greenplum" Jan 21 • 19:00 – 21:00 мск • View details & RSVP https://calendar.app.google/VNdKUZxQMmx2Agy18 Запись будет выложена позже на YouTube.…
UPD: кандидатов пока достаточно, набор приостановлен) Ищу ассистента(ку) Привет! Меня зовут Алексей, основатель сообщества @rzv_de для дата инженеров. Я помогаю улучшать карьерные условия — переходить в IT или повышать ЗП, переходить на удалёнку и более актуальный стэк и тд. Если интересно развиваться в мире данных, изучать то как работает менторство изнутри и получить доступ к моей инфраструктуре и материалам — пиши в личку, почему стоит выбрать тебя. Я рассчитываю, что однажды ты "перерастёшь"...
Напоминаю, что стрим будет завтра вечером. Заходи, задавай вопросы, будем разбираться вместе)
Перезагружай цепочку дагов в Airflow с лёгкостью Много лет работаю с Airflow, только недавно узнал о ExternalTaskMarker. Допустим, нужно перезагружать несколько дагов "по цепочке". Для этого после загрузки DAG1 хотелось бы автоматически очищать соответствующий запуск в DAG2. Оказывается, если в DAG2 создать сенсор на такой маркер в DAG1, то "Clear marker task" с опцией Recursive будет делать ровно это. По крайней мере для дагов с аналогичным расписанием в start_date + schedule. Осталось только д...