3.0Kпросмотров
12 января 2026 г.
stats🎬 ВидеоScore: 3.3K
LTX2 + sillyTavern = TTS+video LTX2 умеет работать в режиме TTS и даже клонировать голос. - мужские голоса клонирует лучше (снова скину Жириновского в комменты, его голос +- похож). Тут на видео голос Эммы похож лишь отдаленно, но зато он одинаковый в каждой генерации.
- умеет не только делать TTS, но и цепляет эмоции и простые действия, типа такого: "нахмурилась, скрестила руки и села на кровать".
- Так как у нас тут роулплей - для нас важна скорость, а не качество видео. Я получаю 70-130 секунд на генерацию. Для максимальной скорости, будем генерировать в 360x360, одним сэмплером без апскейла. Если вам нужно качество - активируйте апскейлер, 2 сэмплера и поднимите разрешение, но будет в несколько раз дольше.
- в мою 3090 влазит 28 секунд видео 360x360. Если длиннее - OOM. Если у вас нет столько VRAM - начните с 5 секунд.
- воркфлоу автоматически высчитывает длину видео на основе длины входного текста. Используйте параметр "text symbols per second" для регулирования расчетной длины.
- для себя я утащил text encoder (gemma-fp4) на вторую карту, это позволяет сэкономить 5-25 секунд в зависимости от скорости RAM и шины PCE
- русский неидеальный, на уровне Xttsv2. В целом, терпимо. - в видео примере используется LLM mistal-large по бесплатному апи от mistral. Рекомендую.
- на вход нужно именно видео 2-3 секунды вместе с аудио и готовым липсинком. Если подать картинку + аудио, то генерации речи по тексту не выйдет. Если у вас нет готового видео с аудио, сгенерируйте его прямо в LTX2 в другом воркфлоу.
- воркфлоу неидеальный, наверняка, есть косяки. Требования
32 RAM (лучше 64+)
12 GB VRAM (лучше 24) скорость на 3090:
16 секунд видео - генерируются за 79 секунд
на 3060 в теории должно заработать, но вам придется ограничить максимальную длину видео 5-10 секундами. Инструкция: В комфи:
- обновить comfyui
- проверяем, что мой ВФ работает внутри комфи.
- Сохраняем воркфлоу как АПИ в комфи: верхнее меню - File - Export (API). Нужно именно API. - имя video_ltx2_tts_emma_api.json в SillyTavern:
- обновить SillyTavern (поддержка генерации видео появилась примерно летом).
- Меню Extensions - Image generation - source: ComfyUI. Адрес: http://127.0.0.1:8188 - жмем connect. там же нажимаем плюсик для создания нового воркфлоу - называем ltx_emma. - Теперь надо передать речь из SillyTavern в промпт в комфи.
- откройте video_ltx2_tts_emma_api.json в каком-нибудь блокноте. Ищем в тексте экспортированного ВФ параметр "char speech from sillyTavern" и заменяем над ним текст "string": "Приветик. Как делишки у вас там...", на вот такое: "string": "%prompt%",
- Вставляем отредактированный ВФ в поле редактирования ВФ в sillyTavern. Сохранить.
- После того как comfyu подключен к Sillytavern, возле каждого сообщения появится иконка "Кисть" - она запускает генерацию картинок и видео. Если иконка не появилась, обновите страницу и попробуйте заново нажать connect в меню extensions. Иногда тупит. Воркфлоу как картинка: https://github.com/Mozer/comfy_stuff/blob/main/workflows/ltx2_tts_emma-for-st.png
Список нод со ссылками внутри воркфлоу.