S
SaaS Founders
@saas_founders1.5K подп.
1.6Kпросмотров
7 декабря 2025 г.
📷 ФотоScore: 1.8K
Пообщались с хорошим другом по поводу того, что на Youtube каждый час заливаются тысячи странных и часто поверхностных AI роликов. Стало интересно - а возможно ли сделать около-историческую научпоп аудио-книгу, которую я сам захочу послушать, с достаточно глубоким и интересным контентом, хорошей озвучкой, с иллюстрациями, и себестоимостью генерации меньше чем в доллар? Потратил два дня, и могу сказать, что самые свежие LLM не хуже Минаева могут осветить исторические события. Оговорюсь, что я не очень в контексте, чего там творится среди существующих решений для генерации длинных видосов и написания книг - не сомневаюсь, что их там уже куча разных есть. Скорее, хотелось применить свои знания в построении универсальных AI агентов на очень прикладном примере, но с использованием самых современных решений для написания текста, создания озвучки, и создания иллюстраций под текст. За сутки запилил MVP: AI агент для генерации качественных исторических аудио-книг для Youtube. Еще сутки ушли на эксперименты и вычитку текста. Помогло, что я большой фанат инженерии и технических открытий Второй Мировой - мне эта вычитка доставляет много удовольствия. Первая главая про B24 Liberator вышла короткая и не самая интересная. К третьей части “книги” про Пантеру и немецкие танковые двигатели я уже вошел во вкус, использую gemini cli и отдельные .md файлы для каждой главы и для оглавления. Кодовый агент великолепно умеет работать с файлами и инструментами, которые сам же и настрогал. Мой AI агент умеет дергать Replicate API и Google API для озвучки, создания изображений, и делать прикладные вещи через консольные утилиты, такие например, как компиляция всей части книги из кучки .md файлов в один, или сложного рендеринга через ffmpeg, где анимируются фотки из папки и на начитку накладывается музыка. Сейчас работа над часовым транскриптом аудио-книги у меня выглядит примерно так: "Так, давай проверь что главы 3 и 4 не повторяются со второй. Добавь интересные исторические моменты про производителей подшипников в Германии во время бомбежек. Создай интересные промпты для генерации трех релевантных картинок и сгенерируй изображения. Потом сгенерируй озвучку на книгу, генерацию видео я сам запущу." Третья глава получается на час интересного контента, уже залип пока слушал. БОльшая часть костов на один ролик - это Nano Banana Pro. Flux 2 тоже хорош, но заметно хуже. Обложку прикладываю - зацените. Суммарно примерно в доллар на все модели уложился (текст условно бесплатный, картинки - дорого и качественно, озвучка - умеренно), но пришлось поэкспериментировать. Если бы хотелось сделать отличную по качеству озвучку на 5 минут - можно было бы взять 11labs и не париться, но это вообще не решение для генерации часовых аудиокниг - останешься без штанов. Через год на Youtube будет заливаться в сто раз больше контента, чем сейчас. Одно дело, когда про это говорят фантасты и журналисты BBC, другое дело - погрузиться в индустрию и руками создать такой контент и понять, что он очень даже "съедобный". Те, кто зарабатывал 1000 долларов в месяц на показах в Youtube на среднем качестве роликов, с большой вероятностью будут зарабатывать 100 долларов - рекламодателей и зрителей больше не станет, а контента будет невероятно много. У уникальных авторов, так же как у хороших сеньор программистов, все будет хорошо. Наверное :) Ссылка на 3 часть про немецкие танки и их двигатели: https://youtu.be/OBsqkkWd7c8 (озвучка на английском)
1.6K
просмотров
3451
символов
Нет
эмодзи
Да
медиа

Другие посты @saas_founders

Все посты канала →
Пообщались с хорошим другом по поводу того, что на Youtube к — @saas_founders | PostSniper