N
Newprolab: обучение DE и DS
@newprolab_news748 подп.
679просмотров
90.8%от подписчиков
9 января 2026 г.
statsScore: 747
🔥 Вышел Apache Spark 4.1 Apache Spark 4.1 официально выпущен – это второе крупное обновление в серии Spark 4 с большим количеством улучшений и новых возможностей, ориентированных на data engineering, реальное время, SQL-выражения и Python. 🚀 Основные фичи Declarative Pipelines (SDP) – новый декларативный фреймворк для описания ETL-конвейеров, где Spark сам строит граф выполнения, параллелизм и управление зависимостями. Structured Streaming Real-Time Mode – официальная поддержка стриминга с низкой задержкой (до однозначных миллисекунд для некоторых задач). Новые Python-оптимизации Arrow-native UDF/UDTF – ускоренные Python-функции без лишних преобразований. Улучшенное pushdown-фильтров в Python Data Source. Spark ML на Connect – GA для Python, с улучшенным кэшированием моделей и управлением памятью. SQL Scripting и VARIANT включены по умолчанию + support recursive CTE, новые приближенные структуры (KLL, Theta). 🔍 Стабильность и производительность zstd-сжатие для планов, потоковая обработка Arrow-результатов, улучшения для больших локальных наборов. Более 1 800 Jira задач закрыто, 230+ участников внесли вклад. 📌 Почему это важно Spark 4.1 – это не просто патч или багфикс: релиз усиливает Spark как единую платформу для мастер-потоков данных, SQL-аналитики и стриминга в режиме реального времени, а также делает Python-опыт более быстрым и удобным. https://spark.apache.org/releases/spark-release-4.1.0.html ps: мы планируем обновить версию Spark на наших программах в течение этого года. Сейчас рабочая версия 3.4.3
679
просмотров
1570
символов
Да
эмодзи
Нет
медиа

Другие посты @newprolab_news

Все посты канала →