Способы загрузки данных В нашей инженерской работе часто приходится сталкиваться с задачами создания витрин данных, миграции с одного источника на другой и регулярного обновления данных. Каждый проект уникален, для каждой витрины нужно подобрать свой подход к загрузке данных, учитывая особенности бизнеса, формат и объем данных, а также частоту и скорость обновления. На выбор стратегии влияют множество факторов: требования по времени загрузки, качество данных, возможность обработки изменений и мн...
что-то на инженерном
все о дата инжиниринге тут *исключительно мнение и опыт автора* сотрудничество/реклама: @iamannabo
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
14 из 14Сегодня предлагаю разобрать популярную задачу с SQL-собесов. Звучит она обычно так: Есть таблицы t1 и t2, состоящие из одного столбца и имеющие m и n строк соответственно. Какое минимальное и максимальное количество строк будет в конечной таблице T, полученной в результате джойна t1 и t2? 🟣t1 inner join t2 🟣t1 left join t2 🟣t1 right join t2 🟣t1 full outer join t2 🟣t1 cross join t2 ⭐️Учитывая, что значения могут повторяться или быть равны NULL. 🏁🏁🏁🏁🏁🏁🏁🏁🏁 Для наглядности работы джойн...
🫡Думай как дата инженер Тут на днях вышла статья про то, что важно не только уметь в хадупы и спарки, но еще и уметь думать как дата инженер. Автору статьи в свое время менторы дали советы, которые стали для него определяющими в формировании его дата инженерского мышления. Совет 1. Не гонись за деньгами, гонись за знаниями. Деньги последуют за тобой. Каждый раз, когда автор выбирает между высокооплачиваемой позицией и менее оплачиваемой работой, но предполагающей развития скиллов, то он выбирае...
Последние недели получились какие-то максимально загруженные в плане работы и личных дел. Уже чувствуется, как год подходит к концу, поэтому держимся из последних сил 💙 Ресурсы читать и изучать что-то рабоче-полезное тоже заканчиваются, поэтому пятничная вылазка на финал МТС True Tech Champ для меня как глоток свежего воздуха: никаких спарков, айсбергов и кликхаусов)) Узнала много нового про роботизацию и AI, посмотрела битву роботов. Искренне болела за семейную пару в финале, которые назвали к...
SELECT FOR UPDATE - как правильно использовать блокировку В самом начале своего инженерного пути я работала с транзакциями в биллинге, и часто встречалась с дэдлоками при обновлении данных, но практически ничего не знала об устройстве процесса блокировок и тем более о том, как это можно отладить. Тогда бы мне очень пригодилась эта статья, в которой супер понятно изложено в каких случаях какую блокировку использовать. 🤩При работе с транзакциями в PostgreSQL есть проблема «потерянного обновления»...
Гарантии доставки сообщений в Kafka✈️ В распределенных системах часто приходится выбирать: в каких сценариях можно позволить себе потерю или задержку сообщения, а где важно гарантировать его обработку без повторов. В Kafka есть несколько уровней гарантий доставки: At Most Once, At Least Once и Exactly Once. От выбора уровня зависит поведение системы при сбоях, баланс между производительностью и надежностью, а также требования к идемпотентности обработки. Предлагаю разобрать подробно, что означае...
Разбираемся с TTL в Clickhouse Представьте, что вы храните логи пользователей, которые активно используются только в течение первого месяца. Далее эти данные нужны только для редких запросов, и хранить их на быстром и дорогом SSD нецелесообразно. С помощью TTL (Time-to-Live) в Clickhouse можно настроить автоматический перенос данных старше 30 дней в холодное хранилище, а в быстром доступе оставить агрегированные данные для статистики. Как это сделать расскажу ниже. Что такое TTL? TTL задает прав...
Обещала после отпуска новый материал, но на неделе после работы и всех предновогодних дел никак не доходили руки до ведения канала. Исправляюсь! На самом деле скопилось много наработок, идей и тем для постов, но каждый раз перед тем, как сесть за их написание, я задаюсь вопросом: «а интересно ли это кому-то вообще?». Сейчас, как правило, когда у меня возникает какой-то срочный вопрос или интерес, то я иду в perplexity и добываю ответ там. Уже гораздо реже я ищу информацию в де-шных блогах или на...
Всем привет! Я нахожусь в отпуске, поэтому постов пока нет, но специально для вас есть акула, даже две 🦈 🦈 Скоро вернусь отдохнувшая и с новым материалом 🤍
Почему иногда моя мотивация к работе снижается? Спойлер: дело не только в зарплате. Я заметила, что сложнее всего мне даются задачи, когда я чувствую, что делаю работу ради работы на протяжении длительного времени. Когда мне приходит задача типа «оптимизировать хранение данных, потому что витрина занимает много места в базе». Я беру и делаю ее: мне понятна формулировка задача, ее цель и какой должен быть конечный результат. Такая работа дается легко и приносит удовлетворение, когда процесс завер...