LTX2 + sillyTavern = TTS+video LTX2 умеет работать в режиме — @tensorbanana

3.0Kпросмотров

12 января 2026 г.

stats🎬 ВидеоScore: 3.3K

LTX2 + sillyTavern = TTS+video LTX2 умеет работать в режиме TTS и даже клонировать голос. - мужские голоса клонирует лучше (снова скину Жириновского в комменты, его голос +- похож). Тут на видео голос Эммы похож лишь отдаленно, но зато он одинаковый в каждой генерации. - умеет не только делать TTS, но и цепляет эмоции и простые действия, типа такого: "нахмурилась, скрестила руки и села на кровать". - Так как у нас тут роулплей - для нас важна скорость, а не качество видео. Я получаю 70-130 секунд на генерацию. Для максимальной скорости, будем генерировать в 360x360, одним сэмплером без апскейла. Если вам нужно качество - активируйте апскейлер, 2 сэмплера и поднимите разрешение, но будет в несколько раз дольше. - в мою 3090 влазит 28 секунд видео 360x360. Если длиннее - OOM. Если у вас нет столько VRAM - начните с 5 секунд. - воркфлоу автоматически высчитывает длину видео на основе длины входного текста. Используйте параметр "text symbols per second" для регулирования расчетной длины. - для себя я утащил text encoder (gemma-fp4) на вторую карту, это позволяет сэкономить 5-25 секунд в зависимости от скорости RAM и шины PCE - русский неидеальный, на уровне Xttsv2. В целом, терпимо. - в видео примере используется LLM mistal-large по бесплатному апи от mistral. Рекомендую. - на вход нужно именно видео 2-3 секунды вместе с аудио и готовым липсинком. Если подать картинку + аудио, то генерации речи по тексту не выйдет. Если у вас нет готового видео с аудио, сгенерируйте его прямо в LTX2 в другом воркфлоу. - воркфлоу неидеальный, наверняка, есть косяки. Требования 32 RAM (лучше 64+) 12 GB VRAM (лучше 24) скорость на 3090: 16 секунд видео - генерируются за 79 секунд на 3060 в теории должно заработать, но вам придется ограничить максимальную длину видео 5-10 секундами. Инструкция: В комфи: - обновить comfyui - проверяем, что мой ВФ работает внутри комфи. - Сохраняем воркфлоу как АПИ в комфи: верхнее меню - File - Export (API). Нужно именно API. - имя video_ltx2_tts_emma_api.json в SillyTavern: - обновить SillyTavern (поддержка генерации видео появилась примерно летом). - Меню Extensions - Image generation - source: ComfyUI. Адрес: http://127.0.0.1:8188 - жмем connect. там же нажимаем плюсик для создания нового воркфлоу - называем ltx_emma. - Теперь надо передать речь из SillyTavern в промпт в комфи. - откройте video_ltx2_tts_emma_api.json в каком-нибудь блокноте. Ищем в тексте экспортированного ВФ параметр "char speech from sillyTavern" и заменяем над ним текст "string": "Приветик. Как делишки у вас там...", на вот такое: "string": "%prompt%", - Вставляем отредактированный ВФ в поле редактирования ВФ в sillyTavern. Сохранить. - После того как comfyu подключен к Sillytavern, возле каждого сообщения появится иконка "Кисть" - она запускает генерацию картинок и видео. Если иконка не появилась, обновите страницу и попробуйте заново нажать connect в меню extensions. Иногда тупит. Воркфлоу как картинка: https://github.com/Mozer/comfy_stuff/blob/main/workflows/ltx2_tts_emma-for-st.png Список нод со ссылками внутри воркфлоу.

Другие посты @tensorbanana