1.9Kпросмотров
41.4%от подписчиков
19 февраля 2026 г.
stats📷 ФотоScore: 2.1K
GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах Zhipu AI опубликовали техрепорт GLM-5 — на сегодня лучшей открытой LLM в индексе Artificial Analysis и топ-1 в кодинге и тексте на LMArena, лидер на бенчмарках BrowseComp и HLE с инструментами среди всех моделей, включая закрытые. Модель умеет писать код, искать информацию в интернете, генерировать презентации и выполнять многошаговые задачи с рассуждениями. Авторы называют GLM-5 переходом от «вайб-кодинга» к агентной инженерии. Получив задачу, GLM-5 сама анализирует репозиторий, пишет патч, запускает тесты, видит ошибки и исправляет их — пока задача не выполнена. Такое поведение стало результатом агентного обучения с подкреплением на более чем 10000 задач из открытых репозиториев. Чтобы это обучение стало возможным в разумные сроки, авторы разработали асинхронную RL-инфраструктуру: инференс и обучение разведены на разные GPU. В обычном синхронном RL GPU простаивают, пока модель медленно проходит длинный агентный роллаут. Асинхронное разделение убирает эти простои и существенно ускоряет итерации. GLM-5 — это Mixture of Experts модель с 744B параметров, из которых в каждый момент активны только 40B. Это в два раза больше предшественника GLM-4.5 (355B/32B). Исследователи применили DSA (DeepSeek Sparse Attention) - разреженный механизм внимания, который вместо того чтобы смотреть на все токены в контексте, динамически выбирает только важные. MLA-256 (Multi-Latent Attention) с оптимизацией Muon Split сжимает ключи и значения в attention до компактного скрытого вектора, что экономит память. Multi-Token Prediction (MTP) с разделением параметров позволяет модели предсказывать несколько токенов за один шаг, что ускоряет генерацию: 2.76 токена против 2.55 у DeepSeek-V3.2. Для агентных задач доступны три режима мышления. На реальных задачах разработки (CC-Bench-V2) GLM-5 достигает 98% Build Success Rate и конкурирует с Claude Opus 4.5 по частичному выполнению задач (71.0% vs 70.7% на React). Но довести сложную задачу до полного завершения пока сложнее: 34.6% против 39.7% у Claude. Полная модель в BF16 весит 1.65 ТБ — для продакшна нужно 8× H200. FP8-версия вдвое легче и влезает в 8× H100 или H20 с минимальными потерями качества. Для экспериментов подойдет 2-bit GGUF от Unsloth на 241 ГБ: запускается на Mac с 256 ГБ unified-памяти или на сервере с GPU 24 ГБ + 256 ГБ RAM. Код, веса и документация доступны на GitHub и Hugging Face под лицензией MIT. #Stateoftheart