🔹 IT-рынок сильно меняется 🔵Требования в вакансиях двигаются, стек уточняется, а привычное ощущение «вроде и так понятно, что учить» уже работает не всегда. Поэтому я решил подойти к вопросу практично: написал скрипт, который проанализировал рынок HeadHunter по направлению Data Engineering и в целом по вакансиям, связанным с Python, чтобы понять, какие навыки реально важны сейчас. Скрипт был собран и запущен 15 марта 2026 года, поэтому данные достаточно свежие. 🟢Сразу оговорюсь: в этой версии...
CODERIKK | DE • Python • SQL
Практичный Data Engineering (DE): Python, SQL, ETL, DWH, production-кейсы и подготовка к собеседованиям. По вопросам и сотрудничеству: - писать через чат 💭
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20🔹 Планирование ETL: расписания и зависимости 🔹 Как запускать ETL-пайплайн по расписанию и учитывать зависимости? 🔸 Суть: нужны регулярные запуски, чтобы данные были свежими, и контроль зависимостей, чтобы задачи не перекрывались и не приводили к неконсистентности данных. Без этого — дубли, гонки и неполные загрузки. 🔸 cron — это расписание по времени. Пример: 0 2 запускает в 02:00. Подходит для простой периодичности, но cron не знает о порядке задач и не управляет retry. 🔸 DAG (Directed Acy...
🔹 Parquet или Delta: в какой момент нужно перестать экономить на простоте? 🔵Parquet отлично подходит, когда всё просто: загрузил, прочитал, посчитал. Это быстрый, компактный и удобный формат для хранения данных. Но как только появляются update, delete, merge, CDC, откаты, контроль версий или параллельная запись — одного Parquet уже часто недостаточно. 🔵Delta Lake — это не замена Parquet, а слой поверх него. Данные по-прежнему хранятся в Parquet, но Delta добавляет transaction log, который дел...
🔹 Подзапросы в SQL 🔹 Где можно ставить subquery и зачем? 🔸 subquery в SQL (Structured Query Language) позволяет вложить один запрос в другой, чтобы вычислить критерий или агрегат без множества временных таблиц. 🔸 В WHERE используются для фильтрации по набору (IN/EXISTS) когда условие зависит от другой таблицы. 🔸 В FROM — как derived table (временная таблица) для дальнейшей агрегации. В SELECT — скалярный subquery для одного вычисленного значения. WITH (CTE: Common Table Expression) делает т...
🔹 Аудитория канала разная 🔵 И это нормально. Кто-то приходит сюда не ради обучения как такового, а ради чего-то полезного, интересного и живого. Кому-то важно лучше понять профессию и сферу IT. Кому-то интересно наблюдать за мной, моим путём, мыслями, опытом и тем, как я смотрю на работу и развитие. А кто-то действительно приходит сюда учиться, забирать знания, подходы и практику. 🔵При этом уровень внутри IT у всех разный: #Junior, #Middle, #Senior или порой вовсе даже не IT-специалист. Кстат...
🔹 NDA — это не «документ о молчании», а договор о границах информации 🔵NDA (Non-Disclosure Agreement) — это соглашение о неразглашении: юридический договор, который определяет, какую информацию можно передавать только в доверительном порядке, кому, для каких целей и что нельзя делать с ней дальше. Такие соглашения используют в бизнесе, найме, переговорах, R&D, подрядных работах и при обмене чувствительными данными. 🟠 Что обычно “скрывает” NDA? Не всё подряд, а именно заранее определённую конф...
🔹 Comprehension: меньше кода — больше смысла 🔹 Как быстрее создавать и читать list/dict в Python? 🔸 comprehension решает проблему громоздких циклов с временными переменными — одна строка заменяет создание пустого списка, цикл и append, код становится короче и легче читать. 🔸 list (список) через list comprehension удобно фильтровать и трансформировать данные; dict (словарь) через dict comprehension формирует пары ключ:значение без множества присваиваний. 🔸 генератор (generator) нужен когда д...
🔹 CAP: компромисс между доступностью и согласованностью 🔹 Как выбрать между доступностью и консистентностью при разделении сети? 🔸 CAP (Consistency — консистентность, Availability — доступность, Partition tolerance — разделение сети) существует потому что реальные сети ломаются; при partition нельзя одновременно ждать мгновенной синхронизации всех реплик и отвечать на все запросы без задержек. 🔸 Выбор консистентности (CP) означает, что некоторые запросы будут отклонены или задержаны при part...
🔹 Контекст vs температура — коротко 🔹 Как контекст и параметр temperature меняют ответы модели? 🔸 Контекст задаёт рамки: инструкции, примеры, формат. Без контекста модель "угадывает" намерение и выдаёт общие или неправильные ответы. Параметр температура управляет стохастичностью: низкая температура даёт консистентность, высокая — больше вариативности и неожиданных формулировок. 🔸 Практически: для точных задач (валидация, SQL, API-инструкции) ставьте temperature ≈ 0–0.2, чтобы получить предск...
🔹 SLA — договор, который спасает продакшн 🔹 Как понять, что 99.9% — это много или мало для сервиса? 🔸 SLA нужен, чтобы согласовать ожидания и ответственность между командами и клиентами. Без него product, infra и data будут спорить о приоритетах и сроках реакции. 🔸 SLA (Service Level Agreement — соглашение об уровне сервиса) — контракт: какие метрики меряем, какой уровень сервиса, окна обслуживания и последствия за провал. Уровень сервиса прописывают явно. 🔸 Uptime — доля времени, когда сер...