Для дальнейшего углубления Для обучения видеомоделей нужны: — @awesome_dl

1.2Kпросмотров

16 февраля 2025 г.

Score: 1.3K

Для дальнейшего углубления Для обучения видеомоделей нужны: 1) большие вычислительные ресурсы и умения работать с ними 2) правильная предобработка и разметка данных 3) новые виды метрик, чтобы оценивать качество моделей Пойдем по порядку: Обучение моделей: Для обучения видео моделей жизненно-важно уметь обучать большие модели. Поэтому рекомендую прочитать про различные виды параллелизма, без которых обучение видеомоделей невозможно. Для самого обучения рекомендую фреймворк torchtitan — нет сложности как в обёртках в виде lightning все +- на дефолтном торче. Последний обзор от HF. Работа с данными Вторая сложность это сбор данных. Видео весит очень много, и поэтому вам неожиданно может прилететь бан по ip за скачивание. Поэтому подготовьтесь к покупке большого числа прокси, чтобы можно было скачать все данные. Чтобы обработать видео вам пригодятся: • Библиотека для нарезки видео на сцены — выявляет нужные сцены на изображении • InternVL2.5 или Tarsier — пригодятся вам для получения текстовых описаний видео • Модель для оценивания движения на изображении — слишком статичные или слишком быстрые видео лучше убрать Оценка качества моделей • Для оценки качества используется обычно VBench или MovieGenBench. Из метрик замеряют качество изображения, соответствие текстовому промпту и консистентность видео и т.д. Критериев очень много поэтому за подробностями лучше глянуть в статью. Инференс моделей Ну и когда ваша модель готова, то важным становится эффективно инференсить её: • FastVideo от hao-ai-lab - ускоренная версия модели HVideo • xDiT - использует несколько видеокарт при инференсе, за счёт чего получается ускорение Статьи: И в конце хочется добавить основные статьи, которые вы можете изучить для полного понимания всей картины, в дополнению к основному посту: • HunuyaunVideo • CogVideoX • VideoWorld • LuminaVideo • Goku

Другие посты @awesome_dl