#Spark #Streaming #BigData #Structured Spark Structured Streaming - это масштабируемый и отказоустойчивый механизм потоковой обработки данных на основе движка SparkSQL (см. официальную документацию Spark). Движок Spark SQL заботится о том, чтобы поток данных обрабатывался постепенно и непрерывно, обновляя конечный результат по мере поступления новых потоковых данных. По итогу мы можем работать со стандартным инструментарием SQL-запросов через DataFrame API или операции Scala в DataSet API, чем...
✨swiftness
Моя особиста колекція матеріалів з iOS розробки Статті англійською: https://buymeacoffee.com/astroevska
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20https://youtu.be/dJvr3Lv7Ybk Есть и на ютубе 😊
#Spark #BigData #Testing Вот и настал 2023! А вместе с ним появилось вдохновение снова писать посты. Напоминаю, что каждый из вас может поделиться своей экспертизой и стать автором поста в моем канале ✏️ Так что не стесняйтесь! Сегодня хотелось бы поговорить о тестировании Spark-приложений. Правильное использование тестов позволяет ускорить процесс разработки и дает уверенность в том, что ваш код будет корректно работать в прод-среде. Существует несколько подходов к тестированию приложений Spa...
Новый эпизод подкаста уже тут💃🎙 В этом выпуске junior data engineer, автор канала Girl DataEng и создатель чата для начинающих дата инженеров DataYoungers Анна Строевская рассказывает о: - проблемах курсов - необходимом background - mindmaps и способах работы над сложной задачей - а также о менторах и community для новичков #datacoffee #data #podcast #данные #подкаст https://anchor.fm/data-coffee/episodes/47-S2E5--------community-e1i5ubm
Друзья, всем привет. Знаю, что меня давно не было, но оттого очень благодарна, что вы не отписываетесь и ждете новых материалов от меня. Я это ценю 🤍 Однако пока постов нет, я стараюсь активно участвовать в различных мероприятиях ИТ-комьюнити. И сегодня я выступала на митапе от центра IT-развития СМАРТ, где рассказывала про Data Engineering для джунов. Про то, в чем в принципе заключается работа дата-инженера, как проходить собеседования, какие есть варианты развития; про софт и хард скиллы. Ко...
#Spark #BigData #Python #PySpark Наконец-то я вернулась! 🤍 Сегодня хочу поделиться с вами обзорной информацией про PySpark - интерфейс для Apache Spark в Python. Если вы еще не знакомы со Spark как технологией, можете почитать мой предыдущий пост. PySpark позволяет писать Spark-приложения с использованием API-интерфейсов Python и предоставляет оболочку для распределенной обработки больших данных. PySpark поддерживает большинство функций Spark, таких как Spark SQL, DataFrame, Streaming, MLlib ...
#Airflow #Executors #BigData Автор: Алексей Мелолян Предполагается, что вы знакомы с основами Apache Airflow, озвученными в посте, в ином случае настоятельно рекомендуем ознакомиться. Executor - механизм, посредством которого Apache Airflow запускает экземпляры задач (Task). В один момент времени Airflow может использовать только один вид Executor’a. Executor может быть стандартным или кастомным, конкретный вид Executor’a присваивается в файле airflow.cfg переменной executor. Список встроенных...
Привет всем новеньким 👋 Для вашего удобства закрепляю пост с самыми главными хэштегами на канале: #SQL - хэштег с постами, посвященными SQL. Теория, функции, все-все, что мне кажется интересным и важным для запоминания. #Python - посты по питону. #Linux - полезные команды и bash. #BigData - инструменты биг даты, теория. Здесь много хэштегов внутри, можете искать по названиям технологий. Также планируется хэштег #Scala для постов от моей внутренней скалистки. И добро пожаловать! Буду рада любы...
Всем привет! Я приболела, а потому посты выходят реже, чем мне бы хотелось. Но сейчас речь не об этом. У нас тут сложилась определенная аудитория, а потому я решила давать возможность другим начинающим специалистам проявить свою экспертность. Сегодня будет пост от одного из них - Алексея, в прошлом бэкендера, а сейчас - начинающего дата инженера, уже имеющего опыт в работе с определенными технологиями. Именно своими знаниями он и будет делиться. А потому запасайтесь свободным временем! Если ср...
#AWS #Cloud #BigData #Не_техническое Всем хорошего воскресенья, друзья! Завтра вас ждет обещанный мной пост про Spark Structured Streaming. А сейчас мне хотелось бы поделиться забавной историей, которая случилась на заре моего джунства. Начитавшись канал Инжиниринг Данных, я решила изучить AWS. Для тех, кто не знает, это Amazon Web Services - лидер на рынке облачных вычислений. Недолго думая, я взяла пробный период и привязала свою карту, понимая, что перед окончанием пробного периода я ее отв...