Вероятно, прочитав наши предыдущие посты про Polars, вы подумали: «Вау, классный инструмент, жаль мы на него не переедем, у нас слишком много инфраструктуры завязано на pandas». Это довольно частая ситуация: разработчики библиотек не могут переехать на более современный табличный бэкенд, потому что большинство их пользователей использует pandas. Так как же всё-таки слезть с иглы pandas? Для этого существует Narwhals — библиотека, которая предоставляет Polars-подобный API и служит слоем совместим...
.ml
Мы — ML-инженеры финтех-компании Точка Банк. Делаем ML не ради трендов, а ради пользы. Делимся проверенными инструментами, шерим работающие модели, рассказываем, как решаем проблемы бизнеса с помощью ML. Вакансии в команду 👇🏻 https://tchk.me/Vl306E
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Можно ли заменить асессоров на LLM? Да, но с умом. На первый взгляд, кажется, всё просто: пишем промт, отправляем его в модель и получаем результат. Это дешевле и быстрее, чем разметка людьми. Но на практике, чтобы промт работал качественно, требуется множество итераций, улучшений и экспериментов. Например, для нашей модели эмоций мы потратили 3 недели на оптимизацию промпта. В результате получили хороший коэффициент согласованности LLM и асессоров — в среднем, 0,81. Затем мы обучили два классиф...
Что делать с ошибочными разметками? Это продолжение поста об асессорской разметке данных. Если мы нашли ошибки в разметке, то можем: 📌 Передать несогласованные примеры на доразметку эксперту. Это самый простой вариант, но не всегда есть возможность привлечь доменного эксперта. 📌 Использовать библиотеку CleanLab для работы с шумными данными. В её основе лежит алгоритм confident learning, который автоматизирует поиск ошибок. Как это работает: 1) Обучаем произвольную модель — от градиентного буст...
Так выглядит Dataset Cartography
Привет! Это канал ML-команды Точка Банка. Мы — инженеры, исследователи и тимлиды. Здесь делимся инструментами и методами развития машинного обучения, которые используем в компании. Разделили все важные темы на категории для удобной навигации: 📌 LLM и NLP Разбираем архитектуру, чтобы понимать, как обучать и инферить эффективнее. → RoPE — Часть 1. Как закодировать позицию без обучения лишних весов. → RoPE — Часть 2. Зачем крутить вектора с разной частотой и как это помогает с длинным контекстом. ...
Что делать, если асессорская разметка не совпала с экспертной? В прошлом посте мы выяснили, что коэффициенты согласованности не всегда отражают финальное качество разметки и модели. В нашем случае почти половина примеров размечена неверно — асессоры согласны между собой, но не с экспертами. Как можно улучшить разметку: 📝 Проверить формулировку задачи и прописать подробный гайд с корнер-кейсами. Можно взять выборку, разметить её по гайду и посмотреть, где возникают споры — эти места нужно уточни...
Model-Centric vs Data-Centric подходы в ML Существуют разные подходы к улучшению ML-моделей. Предположим, у нас есть классификатор эмоций и мы хотим поднять метрики. Что можно сделать: 📌 Поменять подход к обучению — поиграть с архитектурой, претрейнами, оптимизаторами. 📌 Поработать с данными — проверить датасет, пересмотреть разметку, найти шум и ошибки. 📌 Или в совсем отказаться от классической ML-модели и попробовать скормить всё LLM, надеясь на zero/few-shot способности модели. Большинство...
Анатомия http.disconnect: глушим FastAPI правильно Написали статью о том, что происходит, когда соединение с клиентом обрывается и почему ваш код об этом ничего знает. 📝 Разбираемся, что происходит при обрыве соединения на всех уровнях стека — TCP → ASGI → FastAPI приложение → ваш код. 📝 Учимся правильно обрабатывать дисконнекты для стриминга и обычных эндпоинтов в FastAPI-приложениях — особенно актуально для LLM-врапперов. 📌 Читать и ставить лайки здесь: https://medium.com/@shimovolos.stas/y...
Как «пэт-проект» YOLO стал стандартом CV. Разбор v1–v3 Запускаем серию постов об эволюции одной из самых популярных архитектур в компьютерном зрении. Разберём: 👾 Как YOLO стала стандартом в мире детекций. 👾 Как она принесла своему автору премию Google за прорыв в ML. 👾 Чему может научить история развития YOLO. 👾 Почему стоит интегрировать этот метод в свои проекты. До 2015 года задача детекции решалась с помощью поиска наиболее вероятных регионов. Были двухэтапные подходы, такие как Faster R...
Инженерная революция и обзывательства со стороны сообщества. Разбор YOLO v4-v6 Продолжаем наш цикл постов об эволюции самого популярного семейства моделей для Object Detection. Начиная с четвёртой версии, разработка перестала быть чисто идейно-эвристической и стала более инженерной. 📌 YOLO v4: Модель превратили в инженерную энциклопедию (2020) YOLO v4 стала «библией» для улучшения архитектур. В нее вместили максимум трюков, не убив при этом FPS. 💛 Золотая фишка: в новой версии ввели mosaic ауг...