136просмотров
62.7%от подписчиков
21 марта 2026 г.
📷 ФотоScore: 150
🎨 Как нейросети рисуют: от шума до шедевра Вы пишете "кот в космосе", а через минуту получаете картинку. Как из случайных пикселей рождается изображение? Разбираем науку без сложных формул. 🚀 📊 Шаг 1: Язык превращается в числа
Текст "рыжий кот летит в космосе" нейросеть сначала переводит на свой язык — в эмбеддинги. Это длинные векторы чисел, которые кодируют смысл слов. "Кот" и "кошка" будут рядом в этом пространстве, а "кот" и "унитаз" — далеко.
Эти числа становятся инструкцией для генерации. 🌫 Шаг 2: Начинаем с шума
Всё начинается не с чистого листа, а с random-шума — случайных разноцветных точек. Как телевизор без сигнала. Задача нейросети — разглядеть в этом хаосе образ и проявить его. 🔄 Шаг 3: Денойзинг (очистка от шума)
Здесь работает диффузия — главный принцип современных генеративных моделей (Midjourney, Kandinsky, Stable Diffusion).
Нейросеть обучена на миллионах пар "зашумленная картинка — чистая картинка". Она знает, как из мутного пятна сделать чёткое изображение. Процесс идёт шаг за шагом:
Смотрит на шумную картинку и текст "кот в космосе"
Убирает немного шума, приближая к образу
Снова сверяется с текстом
Убирает ещё немного
После 30-50 таких шагов из хаоса проявляется чёткое изображение. 🧠 Шаг 4: Кросс-внимание (сверка с текстом)
Ключевой механизм — кросс-внимание (cross-attention). На каждом шаге нейросеть сверяет кусочки картинки со словами из промпта.
Участок, где угадывается что-то пушистое, должен быть связан со словом "кот". Синий фон — со словом "космос". Звёздочки — с "космосом". Если связь слабая, нейросеть подправляет. 🎯 Шаг 5: Детализация
Современные модели (Kandinsky 4.0, Midjourney v7) делают это дважды: сначала в низком разрешении, потом в высоком.
Первый проход — композиция и основные формы. Второй — текстуры, свет, тени, мелкие детали. Именно поэтому картинки становятся фотореалистичными. ⚡️ Что внутри
Генеративная нейросеть — это два больших блока:
Текстовая часть (CLIP или аналоги): понимает, что значит "рыжий", "кот", "космос", и держит этот образ всё время генерации.
Изобразительная часть (U-Net или трансформер): умеет превращать шум в картинку, сверяясь с текстовыми подсказками. 🎯 Почему получается по-разному
Один и тот же промпт даёт разные результаты, потому что начальный шум каждый раз случайный. А ещё есть параметр temperature — чем выше, тем креативнее и безумнее результат. Чем ниже — тем ближе к "среднему" пониманию запроса. 🔥 Итог
Рисование нейросетью — это не магия, а чёткий конвейер: 1️⃣ Текст → числа (эмбеддинги)
2️⃣ Берём случайный шум
3️⃣ 50 шагов очистки с постоянной сверкой с текстом
4️⃣ Из хаоса рождается картинка Когда вы пишете промпт, вы не просто описываете картинку. Вы ведёте нейросеть за руку через миллионы вариантов к тому единственному, который сложится в шедевр. Теперь, глядя на сгенерированное изображение, вы знаете, какой путь оно прошло. ✨ #ym_science #ym_ai #ym_learn
#КакРисуютНейросети #Диффузия #ГенеративныйИИ