1.2Kпросмотров
27.5%от подписчиков
5 февраля 2026 г.
Score: 1.3K
В этом выпуске джема разбираем ключевой механизм, который лежит в основе GPT и всех современных ИИ — внимание и его реализацию в трансформерах. — Как модель обогащает слово контекстом? На примере "Маша кинула мяч".
— Что на самом деле делают матрицы Query, Key, Value (QKV)? Простая аналогия с поисковиком.
— Зачем нужен Multi-Head Attention? И как "несколько взглядов" улучшают понимание текста.
— Почему нельзя давать модели "подсматривать в будущее" при обучении? Что такое Casual Attention Mask.
— Как бороться с переобучением? Роль Dropout и почему обучение — это всегда поиск в "тумане". По промокоду VALENTINE скидка -44% на guidedao.xyz до 14 февраля 💓 https://www.youtube.com/watch?v=er-OTpPUQsg