Продолжаем разбираться с устройством GPT. — Разбираем, что т — @guidedao

1.0Kпросмотров

23.2%от подписчиков

6 марта 2026 г.

📷 ФотоScore: 1.1K

Продолжаем разбираться с устройством GPT. — Разбираем, что такое Pre-train (предобучение) и зачем оно нужно. — Говорим о функции потерь — кросс-энтропии (Cross-Entropy Loss). Почему мы не можем просто сказать модели "будь умной" и как математика помогает нам понять, где она ошибается. — Спускаемся с горы: интуитивное объяснение градиентного спуска и Backpropagation (обратного распространения ошибки) на примере горного ландшафта. — Overfitting vs Underfitting: вечная борьба переобучения и недообучения. Как тестовая выборка помогает не обманывать самих себя. — Оптимизаторы: SGD vs Adam. В чем разница между тупым спуском с горы и умным альпинистом с памятью? — Batch Size: Почему мы не можем скормить модели все данные сразу и как размер батча влияет на "случайность" блужданий. — Параметры модели: что такое embeddings, heads, dropout и зачем мы отключаем bias. — Live-кодинг: запускаем обучение GPT-2 на 6 млн параметров (и сталкиваемся с типичной проблемой совместимости драйверов и GPU 😅). По промокоду LIFECHANGE скидка -40% на guidedao.xyz до 10 марта 🤘 https://www.youtube.com/watch?v=Mi9ZYZR6x6k

Другие посты @guidedao