D
Data Chaos
@data_chaos129 подп.
204просмотров
13 декабря 2025 г.
Score: 224
🔼 Ключевое решение 1 ✅Вынести состояние (state) из Flink → в Paimon До: Flink state → RocksDB → локальные SSD → чекпоинты → HDFS Размер state = 1 PB+ После: Flink state хранит только ключи и метаданные. А ВСЁ содержимое состояния (история действий, семплы, фичи) живёт в Paimon. Ключевое решение 2 ✅Сделать Paimon единым хранилищем фич и данных поведения Ключевое решение 3 ✅Перевести все фичи в версионированный формат, поддерживающий time-travel Ключевое решение 4 ✅Использовать LSM-дерево как базовый механизм хранения данных L0 — свежие записи (мелкие Parquet файлы) L1 — частично скомпакченные Parquet L2 — крупные, оптимизированные Parquet Для чего я расписал все эти проблемы еще раз? Чтобы наглядно продемонстрировать, для какой системы и масштаба начинает перформить эта технология. Как будто сейчас таких компаний в мире 1-2 десятка всего, не так ли? И кажется, что такому монстру вообще нет места в современном data-driven мире. Возможно. Если абстрагироваться от TikTok, становится видно, что это не история про соцсеть. Архитектурно это первый массовый кейс систем нового типа. Это история про системы, где: -есть огромный поток событий, -есть состояние, -есть необходимость хранить историю, -и есть обучение на этих данных. И таких систем в ближайшие годы станет больше. Но что если посмотреть шире, немного в футуризм? Я вижу как минимум 1 очень перспективную нишу для систем такого класса: хранилище телеметрии роя дронов/роботов (high-throughput, streaming), автономных городских устройств. Это стриминговая, append-heavy нагрузка, похожая на поведение пользователей в TikTok. Paimon идеально подходит для: -ingest 100k-10M событий/сек -changelog -версионированные данные -эффективные upsert -работа в Flink-потоке Потому что Paimon = стриминговый lakehouse, а рой - генератор стримов. История TikTok - это не про соцсети и не про хайп вокруг Paimon. Это первый массовый кейс систем, где данные - это не таблицы, а непрерывный поток поведения и состояния. И таких систем в ближайшие годы станет заметно больше.
204
просмотров
2038
символов
Нет
эмодзи
Нет
медиа

Другие посты @data_chaos

Все посты канала →
🔼 Ключевое решение 1 ✅Вынести состояние (state) из Flink → — @data_chaos | PostSniper