1.2Kпросмотров
16 февраля 2025 г.
Score: 1.3K
Для дальнейшего углубления Для обучения видеомоделей нужны:
1) большие вычислительные ресурсы и умения работать с ними
2) правильная предобработка и разметка данных 3) новые виды метрик, чтобы оценивать качество моделей Пойдем по порядку: Обучение моделей:
Для обучения видео моделей жизненно-важно уметь обучать большие модели. Поэтому рекомендую прочитать про различные виды параллелизма, без которых обучение видеомоделей невозможно. Для самого обучения рекомендую фреймворк torchtitan — нет сложности как в обёртках в виде lightning все +- на дефолтном торче. Последний обзор от HF. Работа с данными
Вторая сложность это сбор данных. Видео весит очень много, и поэтому вам неожиданно может прилететь бан по ip за скачивание. Поэтому подготовьтесь к покупке большого числа прокси, чтобы можно было скачать все данные. Чтобы обработать видео вам пригодятся: • Библиотека для нарезки видео на сцены — выявляет нужные сцены на изображении
• InternVL2.5 или Tarsier — пригодятся вам для получения текстовых описаний видео
• Модель для оценивания движения на изображении — слишком статичные или слишком быстрые видео лучше убрать Оценка качества моделей
• Для оценки качества используется обычно VBench или MovieGenBench. Из метрик замеряют качество изображения, соответствие текстовому промпту и консистентность видео и т.д. Критериев очень много поэтому за подробностями лучше глянуть в статью. Инференс моделей Ну и когда ваша модель готова, то важным становится эффективно инференсить её: • FastVideo от hao-ai-lab - ускоренная версия модели HVideo
• xDiT - использует несколько видеокарт при инференсе, за счёт чего получается ускорение Статьи: И в конце хочется добавить основные статьи, которые вы можете изучить для полного понимания всей картины, в дополнению к основному посту: • HunuyaunVideo
• CogVideoX
• VideoWorld
• LuminaVideo
• Goku