Подборка каналов Ребята предложили залететь в подборку каналов, я согласился, потому что ребята — топ! Так что про всех понемногу: • Захар — человеку 18 лет, а ведет один из немногих каналов по аудио и делает уже свой стартап • Антон — руководитель OCR команды в яндексе и делает прикольные посты про то как быть руководителем (мне сейчас актуально) • Дэнчик — легенда в 15 лет статья на А* делает офигенные модельки на аудио • Андрей — уважаемый человек, прошли одну школу жизни МФТИ + Сколтех. Мне ...
Awesome DL
Авторский канал: @anvilarth Boost: https://t.me/awesome_dl?boost
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Привет! Меня зовут Олег, я исследую, как оптимально скейлить языковые модели в Jülich Supercomputing Centre. Пока Андрей подзаряжается энергией для будущих постов, с его позволения поделюсь тут нашей новой работой — “Optimal Scaling Needs Optimal Norm”. Всем, кто задумывался о правильном тюнинге гиперпараметров — будет интересно! Главная проблема в скейлинге — как подбирать гиперпараметры (learning rate, batch size и т.д.) на масштабе >1B параметров и >100B токенов, когда перебор брутфорсом уже ...
Пост знакомство Я Андрей Филатов – Team Lead Gen AI CV в стартапе, занимаюсь применением генеративных моделей для создания визуального контента: создание изображений/видео, редактирования изображений/видео, создание персонализированных генераций. В ML/DL уже более 6 лет – с момента стажировки в Тинькоффе в 2019 году, где работал почти по соседству с Олегом Тиньковым и сохранил пару историй о нём. Затем был EPFL (где публиковался на NeurIPS) и работа в команде Kandinsky Sber AI. Параллельно мне н...
Создал агента для ответов на вопросы В рамках своего вайб-кодинга я начал делать мини-демки, чтобы понять, какие полезные штуки можно собрать и параллельно своими действиями вдохновить людей создавать интересные вещи самостоятельно. Сейчас на хайпе — агенты: те самые, которые должны решать за вас задачи, работать быстро и эффективно и вообще сильно упрощать жизнь. В полноценную замену человека я пока не верю, но понимаю, что на API можно сделать много прикольных и реально полезных штук. Поэтому ...
Пока я путешествую по разным странам и набираюсь опыта, у меня не всегда остаётся время писать в канал. Хотя идей накопилось немало — год назад я о многих из них даже не думал. Чтобы заполнить паузу и заодно набраться мотивации через новых подписчиков, решил поучаствовать в папке. Я честно рекомендую ребят, которых приведу ниже — уделил время просмотру их контента: - Тимлид и работа руками — про то, как совмещать управление и свои задачи от друга Сани, у которого еще есть офигенный канал про то ...
«Вы открываете изображения неправильно!» В современных архитектурах машинного обучения загрузка изображений из файлов часто становится узким местом из-за ограничений CPU. Каждая миллисекунда на подготовку данных имеет значение, особенно при работе с большими датасетами и сложными моделями. Я решил проверить эффективность стандартных инструментов и сравнил производительность Pytorch DataLoader с NVIDIA DALI — библиотекой, специально разработанной для ускорения загрузки и предварительной обработки...
Хочу рассказать про канал моего друга Саида. Саид уже сделал одну из топовых моделей на HF, а сейчас полностью ушёл в работу над своим стартапом AnyAgent. Немного завидую — он выбрал идею и просто пошёл её делать — человек пошел за мечтой. AnyAgent — это ассистент, через который можно обновить календарь, запланировать встречу или распланировать день. Я попробовал сам — понравилось, как он помогает с микроменеджментом, особенно с календарём. Это то, что обычно забивает голову. Сейчас продукт нахо...
Для дальнейшего углубления Для обучения видеомоделей нужны: 1) большие вычислительные ресурсы и умения работать с ними 2) правильная предобработка и разметка данных 3) новые виды метрик, чтобы оценивать качество моделей Пойдем по порядку: Обучение моделей: Для обучения видео моделей жизненно-важно уметь обучать большие модели. Поэтому рекомендую прочитать про различные виды параллелизма, без которых обучение видеомоделей невозможно. Для самого обучения рекомендую фреймворк torchtitan — нет сложн...
⚡️SageAttention — brand new attention Flash Attention бустит классический attention по скорости, но что если я скажу, что можно еще быстрее, если правильно квантизовать Flash Attention. Sage Attention за счёт умной квантизации + понимании CUDA ускоряют Flash Attention 2 от 2x до 5x раз. Небольшое введение в квантизацию. Допустим, у нас есть матрица A, которую мы хотим перевести из формата FP16 в INT8. Для этого: 1. Сначала находим максимальное абсолютное значение элементов матрицы и вычисляем ко...
Диффузионные модели для видео: с чего начать? /w @Magistrkoljan Сегодня я расскажу, как минимальными усилиями начать свой путь в мире диффузионных моделей для генерации видео. Если вы не знаете, что такое диффузионные модели, то рекомендую сначала прочитать guidebook по диффузионным моделям. Начнём! Туториалы Отличной стартовой точкой будет прохождение туториалов, где можно получить обзор всей области: от как модифицировать картиночную модель для генерации видео и до как учить полноценную модель...