Заглянул в славный город Белград и пообщался с коллегами в недавно открытом R&D офисе Databricks. Ребята активно ищут талантливых инженеров в новую команду, и готовы обсуждать варианты с релокацией в Белград. Позиции можно посмотреть вот здесь, и я конечно же буду рад пореферить - пишите в LinkedIn.
Anscombe's Quartet
Data/ML Engineering. Рассуждения по теме и не по теме.
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20У нас в Databricks EMEA team открылись две позиции для Sr. Specialist Solutions Engineer по тематике DWH ⚡. Много интересных задач - как миграции так и greenfield проекты, можно работать на ремоуте (но возможен travel up to 30%). Рассматриваем кандидатов с EU work permit, преимущественно в Германии. 🔗 Полное описание позиции здесь 🤝 За рефером можно написать мне в LinkedIn
А еще у нас большой эвент намечается - ежегодный Data + AI Summit 2023. Я в этом году буду его смотреть в Берлине на Watch Party, 28 июня, и буду рад видеть всех кто захочет поболтать про DE/ML. Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures: 🔗 RSVP Link
Залетайте послушать про Delta Lake и работу с этим форматом от одного из коммитеров в нативные Delta Lake коннекторы на разных языках (outside of Spark ecosystem). Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит. 📍 Thursday, 15 June 2023, 18:00–19:00 CEST 🔗 RSVP Link
Продолжаю развивать идею HATEAOS на Python. В последнюю неделю я чуть переработал логику рендеринга, и как мне кажется даже не смотря на то что в новом подходе частично теряется типизация, с точки зрения чистого dev experience это выглядит куда приятнее. Ну и поскольку первым делом в любых UI фреймворках все пишут todo, я тоже решил пройти этот путь и вышло довольно удобно - всего 98 строк, причем с хорошей типизацией и разбивкой на компоненты. Почитать в деталях можно вот тут. А если кому идея ...
Fresh off the press - мой новый обширный блогпост о том как на чистом Python и с использованием Spark APIs (никаких ORM!) написать UI-приложение для разметки картинок. Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД). Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse. https://polarpersonal.medium.com/building-an...
Пару выходных назад я почитал про концепцию HATEAOS, aka Hypermedia as the Engine of Application State, и фреймворк под названием HTMX. Если вкратце, то идея HTMX в том чтобы писать как можно меньше client-side кода на JS, а интерактивность обеспечивать путем отправки новых блоков HTML кода обратно с сервера на клиент (в браузер). Мне показалось что такая концепция хорошо подходит для того чтобы реализовать server-driven UI kit уже на Python. Идея в целом простая как пробка: - Python-сервер возв...
Из практики я часто вижу как при дизайне дата приложений инженеры совершают небольшие ошибки и недочеты, не беря в расчет потенциал роста данных и изменения требований. По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков. Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476
Нашел интересную статью от апреля 2021 в Microsoft WorkLab. В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке. Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытуемых (побольше бы таких исследований!). Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать....
6 июня в Цюрихе буду рассказывать про CI/CD на Databricks on AWS. Буду показывать как использовать современный toolset для такой разработки (hatch, DABs, pytest with testcontainers, Github Actions with self-hosted runners). ссылка на регистрацию - https://aws-experience.com/emea/dach-cee/e/6c859/aws-builders-day