Слышали уже про Apache Paimon? Восходящая звезда MDS (modern data stack) и очень интересная технология, вышедшая в свет всего 2 года назад (ранее платформа была внутренним продуктом в Alibaba), и пока активно распространяется только в Азии. Apache Flink стал стандартом realtime-пайплайнов в Китае и именно под него (Flink-first принцип) появилась платформа Paimon. 📌Apache Paimon - это high-performance streaming data lake + таблицы для real-time аналитики и ML. Если Iceberg и Delta Lake - это кла...
Data Chaos
Data, хаос и рефлексия. AI, Big Data, архитектура, governance, регуляторка — плюс немного практики, личного и комментариев на инфоповоды от C-level без фильтра.
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Для всех любителей вайб-коддинга и своих мини проектов (как я), есть один забавный (и тревожный) феномен, который становится всё чаще - утечки ключей и паролей через vibe-coding. AI-разработка ускоряет... и ослабляет. Защита приложений и кодовой базы, как показывают массовые исследования - на уровне днища. Быстрые MVP, автогенерация кода, автозаливка в GitHub - всё супер, пока кто-то не забывает удалить .env или не хардкодит API-ключ прямо в коде. Исследование RedHuntLabs - более 16 000 реальных...
Льготу по НДС для ИТ все же сохранят🥳 Ну хоть что-то заканчивается хорошо, а не как обычно😁 Курирующий ИТ вице-премьер Дмитрий Григоренко сообщил, что Правительство согласовало отказ от введения НДС для ИТ-отрасли. Соответствующие изменения будут учтены Правительством в поправках в Налоговый кодекс ко второму чтению. Минцифры Все дружно выдохнули, поскольку в связи с корректировками бюджетов компаний на 2026 год, по словам моих коллег и знакомых, в ноябре уже было запланировано много тяжелых "...
Правительство России 9 декабря 2025 г. ужесточило требования к программно-аппаратным комплексам (ПАК) для генеративного искусственного интеллекта (ИИ), желающим попасть в льготный реестр. Что вообще даёт этот реестр: -доступ к госзакупкам (44-ФЗ / 223-ФЗ), -возможность участия в госпрограммах субсидирования, -льготы по налогам / грантам / регуляторным режимам, -статус «доверенного» ИИ-решения для госсектора и квазигоскомпаний. Фактически: без реестра ты - ИИ-стартап (без клиентов), с реестром - ...
Ох этот чудный 2025-й. Год, когда все у меня шло не по плану. Да и вообще будем честны - через жопу. Практически все начинания закончились не очень. Куча золота проплыла мимо меня и миллионы не были заработаны. Но с другой стороны, я вот подумал: на самом деле, жизнь вообще достаточно щедро раздаёт возможности. Но... как говориться: 📋 с планированием у нас всё отлично, 🛠 а execution - как всегда, на уровне дна. Так вот, надеюсь с возможностями в следующем году у нас всё будет не хуже, и уже на...
Хочу обратить внимание на статью, которой поделился наш коллега по цеху https://topicpartition.io/blog/postgres-pubsub-queue-benchmarks И набирающий популярность подход: Just Use Postgres (for everything) Ключевые мысли: 🔹 «Small Data + Big Hardware» — современное железо тянет больше, чем кластер из 6 брокеров. 🔹 90 % компаний не Google-масштаб. 🔹 Kafka даёт избыточную сложность там, где Postgres просто «insert into да и х с ним». 🔹 Современный Postgres решает 80 % задач Redis, Mongo и Kafka...
Поскольку у нас из каждого утюга про AI и LLM давайте зафиксируем, чтобы не путать и различать. Что есть AI-агент на уровне концепций и устройства. ❗️Основной тезис: AI-агент - это дополнительный слой над LLM, который, помимо генерации текста и рассуждений, умеет выполнять действия через инструменты и управлять контекстом. Итак, у нас есть 3 слоя: 1️⃣ LLM (ядро) - это базовая модель (GPT-5, Claude, Gemini и т.д.), которая умеет: -понимать естественный язык, -рассуждать (chain-of-thought), -генер...
Не про данные, но о том как данные меняют наши города TL;DR ДИТ Москвы публикует мощный ежеквартальный обзор Тренды развития умных городов. ИИ стал стандартной функцией городских сервисов; транспорт и экология дают лучшие кейсы с измеримыми эффектами; города с сильной политикой открытых данных извлекают больше пользы. 🏙Развитие концепции умных городов - один из моих главных интересов. Как данные и сервисы превращаются в часть инфраструктуры нашей жизни? Как с помощью data driven подхода и инсай...
🔼 Ключевое решение 1 ✅Вынести состояние (state) из Flink → в Paimon До: Flink state → RocksDB → локальные SSD → чекпоинты → HDFS Размер state = 1 PB+ После: Flink state хранит только ключи и метаданные. А ВСЁ содержимое состояния (история действий, семплы, фичи) живёт в Paimon. Ключевое решение 2 ✅Сделать Paimon единым хранилищем фич и данных поведения Ключевое решение 3 ✅Перевести все фичи в версионированный формат, поддерживающий time-travel Ключевое решение 4 ✅Использовать LSM-дерево как баз...
На этой неделе я снова в командировке на конференции. Очень странный микс треков и программы: образование, инфобез и дата-тех - всё сразу и ни о чём конкретно (всё, как мы любим😁) 🎓 Питч-сессия университетов. Конфа проходит при участии региональных вузов. Смотрится как AI-ярмарка тщеславия. Каждый вуз показал "свой" проект - от ферм данных до агро-ИИ. Ничего плохого, но слишком очевидно, что университетская Big Data живёт в стенах лабораторий и редко выходит наружу. Половина решений - "оценка ...