Пока все гоняются за H200 и RTX 5090, мы решили выжать макси — @kz_media_official

1.1Kпросмотров

50.0%от подписчиков

5 января 2026 г.

statsScore: 1.2K

Пока все гоняются за H200 и RTX 5090, мы решили выжать максимум из того, что есть под рукой. Результат превзошел все ожидания. Представляем ThinkFlow Kernels — набор кастомных CUDA-ядер, оптимизированных специально для архитектуры NVIDIA Turing (RTX 20-series) ✴️Что внутри: Fused SwiGLU & RMSNorm: Минимум обращений к памяти, максимум вычислений внутри чипа. In-place RoPE: Вращение позиционных эмбеддингов без создания лишних копий в VRAM. Результат: Обучение модели 300M параметров с контекстом 4096 токенов на обычной 8ГБ карте со скоростью ≈23,000 tok/s Для сравнения: это уровень производительности оптимизированных систем на базе RTX 3090/4070 Ti! Мы решили выложить ядра в Open Source, чтобы владельцы 20-й серии могли обучать свои LLM на космических скоростях! GitHub ✴️ #AI #LLM #Triton #CUDA #NVIDIA #Turing #OpenSource #ThinkFlow

Другие посты @kz_media_official