T
Tensor Banana
@tensorbanana2.9K подп.
1.2Kпросмотров
40.1%от подписчиков
17 марта 2026 г.
🎬 ВидеоScore: 1.3K
Создаем персонализированный контент: фанфики, аудиокниги, визуальные новеллы Это же видео на яндекс диске: https://disk.yandex.ru/i/BKndy2R19qDEMw Пример на видео - не готовый результат, готовым его сделает нужная вам персонализация (замена персонажей, локаций, привычек, фетишей, голосов и изображений). Читать/смотреть чужие фанфики обычно неинтересно, они слишком плоские и неинтересные. А вот персональный контент это другое дело, за ним будущее. Я себе уже штук 10 адаптаций сделал: по ситкомам, аниме, книгам. 20-40 глав идеально, потом надоедает. До видео стадии дошло пока 2 тайтла, слишком много действий. По фильмам/книгам с серьезным сюжетом пока не рекомендую делать: будет много несостыковок в сюжете, это будет бесить. Ситкомы и аниме - идеально. Или манга, но тут тоже сложно с консистентностью. Важная фишка которая цепляет - добавление ваших фетишей. ТЕКСТ: На вход: субтитры, краткое содержание сюжета Персонализация: замена персонажей (имен, описаний, привычек, пола) Добавление нужных фетишей в сюжет На выход: полноценная глава лайт новеллы или фанфика LLM: qwen3.5-27b, qwen3.5-35b, GLM-4.7-Flash-abliterated, gemma3-27b АУДИОКНИГА: оригинальные голоса + ваши голоса TTS: silero-tts-v5, qwen3-tts, vibevoice(не рекомендую) qwen3 TTS API сервер: https://github.com/andimarafioti/faster-qwen3-tts ВИЗУАЛЬНАЯ НОВЕЛЛА: На вход: Фоны, основные персонажи klein-9b-kv-fp8 в режиме редактирования с одной картинкой на вход Проблемы LLM: 1. LLM не умеют писать длинные главы. Они натренированы на коротких ответах на 1-2 тысячи токенов, что маловато для полноценной главы романа. Если больше - входят в циклы, бредят. Решение - делить главы на части. Потом клеить и просить убрать несостыковки. 2. На русских текстах LLM пишут хуже чем на английском - более шаблонно, чаще входят в лупы. Решение - писать на английском (даже если исходный сериал русский), использовать перевод. Для перевода - gemma3-27b или translategemma-27b. 3. LLM не могут выполнять несколько задач одновременно, например, собрать json с несколькими полями построчно по длинному тексту. Внимание падает, делают ошибки. Решение - делить текст на куски, делить задачу на подзадачи. 4. Расцензуренные LLM хуже выполняют задачи на обработку текста, например, создание промптов для text2image или создание json. А оригинальные LLM иногда могут отказаться от такой задачи, если на вход подается текст с 18+ темами. Решение - жонглировать LLM под задачи. 5. Режим размышлений (reasoning) очень плохо работает с длинными текстами (50-100 строк). Большая вероятность, что LLM войдет в луп. И большая вероятность, что текст на выходе будет в несколько раз короче, чем текст на входе, LLM его сократит, даже если просить не сокращать. Решение - отключаю ризониниг для большинства задач. 6. Режим преобразования манги в художественный текст я пока не победил, есть проблемы с консистентностью сюжета между страницами. Проблемы TTS: 1. silero-v5 xenia нравится за скорость, но есть проблемы с ударениями. Готового решения с омографами пока нет, все решения косячат. Только топовые LLM типа gemini-3-pro могут правильно расставить все ударения. 2. qwen3-tts не очень стабилен при клонировании голосов - иногда голоса совсем не похожи на оригинал, иногда норм. Пока смирился. У faster-qwen3 скорость примерно в 3 раза выше реалтайма - лайк. 3. vibevoice слишком много галлюцинирует, посторонние звуки мешают. отказался от него Проблемы klein: 1. Похожесть: если подавать фон и персонажей отдельными картинками похожесть будет очень низкая, лица очень сильно меняет. Решение: подавать одну картинку с программно приклеенными поверх персонажами, так похожеть намного лучше, но они хуже интегрированы в фон. Ищите компромисс, что важнее - похожесть или действия внутри картинки 2. Лишние руки: чем больше персонажей в кадре, тем больше будет рук. Решение: ограничить число персонажей в кадре до 2-3-х + использовать сэмплер res_2s, он делает чуть меньше косяков, но работает в 2 раза дольше. Этапы создания не влезли
1.2K
просмотров
4000
символов
Нет
эмодзи
Да
медиа

Другие посты @tensorbanana

Все посты канала →
Создаем персонализированный контент: фанфики, аудиокниги, ви — @tensorbanana | PostSniper