6.2Kпросмотров
65.5%от подписчиков
21 марта 2026 г.
Score: 6.8K
👨💻 Нашел одну вещь — LLM Architecture Gallery Все современные архитектуры языковых моделей в одном месте. Довольно полезно, учитывая, что модели уходят от универсальности к фрагментарности, в зависимости от поставленных задач и потребностей. В подборке — 40 моделей, выпущенных с 2024 по 2026 год, включая DeepSeek V3.2, Grok 2.5, Qwen3.5, Nemotron 3 и другие. По каждой LLM представлены наглядная диаграмма архитектуры и ссылки на технические отчеты и конфигурации. Лицензии туда же, контекстное окно и т.д. Автор ведет галлерею с обновлением от 20 марта 2026 года. В отдельном разделе собраны ссылки на сравнительные статьи, где разбираются переходы от GPT-2 к GPT-OSS, изменения в DeepSeek V3.2 и другие архитектурные сдвиги. Наглядно видно, как отрасль движется от плотных моделей к гибридным MoE и линейным attention-механизмам (DeltaNet, Lightning Attention), а также растет доля архитектур с разделением на глобальные и локальные слои внимания. #Рабочее 🔴 Подписаться на блог ⚡️Поддержать журналиста 🤑Прислать донат в cloudtips