204просмотров
13 декабря 2025 г.
Score: 224
🔼
Ключевое решение 1
✅Вынести состояние (state) из Flink → в Paimon
До:
Flink state → RocksDB → локальные SSD → чекпоинты → HDFS
Размер state = 1 PB+
После:
Flink state хранит только ключи и метаданные. А ВСЁ содержимое состояния (история действий, семплы, фичи) живёт в Paimon. Ключевое решение 2
✅Сделать Paimon единым хранилищем фич и данных поведения Ключевое решение 3
✅Перевести все фичи в версионированный формат, поддерживающий time-travel Ключевое решение 4
✅Использовать LSM-дерево как базовый механизм хранения данных
L0 — свежие записи (мелкие Parquet файлы)
L1 — частично скомпакченные Parquet
L2 — крупные, оптимизированные Parquet Для чего я расписал все эти проблемы еще раз? Чтобы наглядно продемонстрировать, для какой системы и масштаба начинает перформить эта технология. Как будто сейчас таких компаний в мире 1-2 десятка всего, не так ли? И кажется, что такому монстру вообще нет места в современном data-driven мире.
Возможно. Если абстрагироваться от TikTok, становится видно, что это не история про соцсеть. Архитектурно это первый массовый кейс систем нового типа. Это история про системы, где:
-есть огромный поток событий,
-есть состояние,
-есть необходимость хранить историю,
-и есть обучение на этих данных. И таких систем в ближайшие годы станет больше.
Но что если посмотреть шире, немного в футуризм? Я вижу как минимум 1 очень перспективную нишу для систем такого класса: хранилище телеметрии роя дронов/роботов (high-throughput, streaming), автономных городских устройств. Это стриминговая, append-heavy нагрузка, похожая на поведение пользователей в TikTok. Paimon идеально подходит для:
-ingest 100k-10M событий/сек
-changelog
-версионированные данные
-эффективные upsert
-работа в Flink-потоке Потому что Paimon = стриминговый lakehouse, а рой - генератор стримов. История TikTok - это не про соцсети и не про хайп вокруг Paimon.
Это первый массовый кейс систем, где данные - это не таблицы, а непрерывный поток поведения и состояния.
И таких систем в ближайшие годы станет заметно больше.