K
KZ Media
@kz_media_official2.3K подп.
1.1Kпросмотров
50.0%от подписчиков
5 января 2026 г.
statsScore: 1.2K
Пока все гоняются за H200 и RTX 5090, мы решили выжать максимум из того, что есть под рукой. Результат превзошел все ожидания. Представляем ThinkFlow Kernels — набор кастомных CUDA-ядер, оптимизированных специально для архитектуры NVIDIA Turing (RTX 20-series) ✴️Что внутри: Fused SwiGLU & RMSNorm: Минимум обращений к памяти, максимум вычислений внутри чипа. In-place RoPE: Вращение позиционных эмбеддингов без создания лишних копий в VRAM. Результат: Обучение модели 300M параметров с контекстом 4096 токенов на обычной 8ГБ карте со скоростью ≈23,000 tok/s Для сравнения: это уровень производительности оптимизированных систем на базе RTX 3090/4070 Ti! Мы решили выложить ядра в Open Source, чтобы владельцы 20-й серии могли обучать свои LLM на космических скоростях! GitHub ✴️ #AI #LLM #Triton #CUDA #NVIDIA #Turing #OpenSource #ThinkFlow
1.1K
просмотров
846
символов
Нет
эмодзи
Нет
медиа

Другие посты @kz_media_official

Все посты канала →
Пока все гоняются за H200 и RTX 5090, мы решили выжать макси — @kz_media_official | PostSniper