🎨 Как нейросети рисуют: от шума до шедевра Вы пишете "кот в — @um_ai_dohod

136просмотров

62.7%от подписчиков

21 марта 2026 г.

📷 ФотоScore: 150

🎨 Как нейросети рисуют: от шума до шедевра Вы пишете "кот в космосе", а через минуту получаете картинку. Как из случайных пикселей рождается изображение? Разбираем науку без сложных формул. 🚀 📊 Шаг 1: Язык превращается в числа Текст "рыжий кот летит в космосе" нейросеть сначала переводит на свой язык — в эмбеддинги. Это длинные векторы чисел, которые кодируют смысл слов. "Кот" и "кошка" будут рядом в этом пространстве, а "кот" и "унитаз" — далеко. Эти числа становятся инструкцией для генерации. 🌫 Шаг 2: Начинаем с шума Всё начинается не с чистого листа, а с random-шума — случайных разноцветных точек. Как телевизор без сигнала. Задача нейросети — разглядеть в этом хаосе образ и проявить его. 🔄 Шаг 3: Денойзинг (очистка от шума) Здесь работает диффузия — главный принцип современных генеративных моделей (Midjourney, Kandinsky, Stable Diffusion). Нейросеть обучена на миллионах пар "зашумленная картинка — чистая картинка". Она знает, как из мутного пятна сделать чёткое изображение. Процесс идёт шаг за шагом: Смотрит на шумную картинку и текст "кот в космосе" Убирает немного шума, приближая к образу Снова сверяется с текстом Убирает ещё немного После 30-50 таких шагов из хаоса проявляется чёткое изображение. 🧠 Шаг 4: Кросс-внимание (сверка с текстом) Ключевой механизм — кросс-внимание (cross-attention). На каждом шаге нейросеть сверяет кусочки картинки со словами из промпта. Участок, где угадывается что-то пушистое, должен быть связан со словом "кот". Синий фон — со словом "космос". Звёздочки — с "космосом". Если связь слабая, нейросеть подправляет. 🎯 Шаг 5: Детализация Современные модели (Kandinsky 4.0, Midjourney v7) делают это дважды: сначала в низком разрешении, потом в высоком. Первый проход — композиция и основные формы. Второй — текстуры, свет, тени, мелкие детали. Именно поэтому картинки становятся фотореалистичными. ⚡️ Что внутри Генеративная нейросеть — это два больших блока: Текстовая часть (CLIP или аналоги): понимает, что значит "рыжий", "кот", "космос", и держит этот образ всё время генерации. Изобразительная часть (U-Net или трансформер): умеет превращать шум в картинку, сверяясь с текстовыми подсказками. 🎯 Почему получается по-разному Один и тот же промпт даёт разные результаты, потому что начальный шум каждый раз случайный. А ещё есть параметр temperature — чем выше, тем креативнее и безумнее результат. Чем ниже — тем ближе к "среднему" пониманию запроса. 🔥 Итог Рисование нейросетью — это не магия, а чёткий конвейер: 1️⃣ Текст → числа (эмбеддинги) 2️⃣ Берём случайный шум 3️⃣ 50 шагов очистки с постоянной сверкой с текстом 4️⃣ Из хаоса рождается картинка Когда вы пишете промпт, вы не просто описываете картинку. Вы ведёте нейросеть за руку через миллионы вариантов к тому единственному, который сложится в шедевр. Теперь, глядя на сгенерированное изображение, вы знаете, какой путь оно прошло. ✨ #ym_science #ym_ai #ym_learn #КакРисуютНейросети #Диффузия #ГенеративныйИИ

Другие посты @um_ai_dohod