1.0Kпросмотров
23.2%от подписчиков
6 марта 2026 г.
📷 ФотоScore: 1.1K
Продолжаем разбираться с устройством GPT. — Разбираем, что такое Pre-train (предобучение) и зачем оно нужно.
— Говорим о функции потерь — кросс-энтропии (Cross-Entropy Loss). Почему мы не можем просто сказать модели "будь умной" и как математика помогает нам понять, где она ошибается.
— Спускаемся с горы: интуитивное объяснение градиентного спуска и Backpropagation (обратного распространения ошибки) на примере горного ландшафта.
— Overfitting vs Underfitting: вечная борьба переобучения и недообучения. Как тестовая выборка помогает не обманывать самих себя.
— Оптимизаторы: SGD vs Adam. В чем разница между тупым спуском с горы и умным альпинистом с памятью?
— Batch Size: Почему мы не можем скормить модели все данные сразу и как размер батча влияет на "случайность" блужданий.
— Параметры модели: что такое embeddings, heads, dropout и зачем мы отключаем bias.
— Live-кодинг: запускаем обучение GPT-2 на 6 млн параметров (и сталкиваемся с типичной проблемой совместимости драйверов и GPU 😅). По промокоду LIFECHANGE скидка -40% на guidedao.xyz до 10 марта 🤘 https://www.youtube.com/watch?v=Mi9ZYZR6x6k