1.1Kпросмотров
50.0%от подписчиков
5 января 2026 г.
statsScore: 1.2K
Пока все гоняются за H200 и RTX 5090, мы решили выжать максимум из того, что есть под рукой. Результат превзошел все ожидания. Представляем ThinkFlow Kernels — набор кастомных CUDA-ядер, оптимизированных специально для архитектуры NVIDIA Turing (RTX 20-series) ✴️Что внутри:
Fused SwiGLU & RMSNorm: Минимум обращений к памяти, максимум вычислений внутри чипа.
In-place RoPE: Вращение позиционных эмбеддингов без создания лишних копий в VRAM.
Результат: Обучение модели 300M параметров с контекстом 4096 токенов на обычной 8ГБ карте со скоростью ≈23,000 tok/s
Для сравнения: это уровень производительности оптимизированных систем на базе RTX 3090/4070 Ti! Мы решили выложить ядра в Open Source, чтобы владельцы 20-й серии могли обучать свои LLM на космических скоростях! GitHub ✴️ #AI #LLM #Triton #CUDA #NVIDIA #Turing #OpenSource #ThinkFlow