D
Data Scientist | ML & AI
@datascience_tg2.7K подп.
483просмотров
17.9%от подписчиков
18 марта 2026 г.
🎬 ВидеоScore: 531
💾 Шпаргалка по архитектурам LLM: от GPT-2 до триллионников LLM Architecture Gallery — страница с карточками на 39 моделей (2019–2026): DeepSeek, Qwen, Llama, Kimi, Grok, Nemotron и другие.Для каждой — диаграмма архитектуры, тип декодера (dense / sparse MoE / hybrid), тип attention и ссылки на техрепорты и конфиги с HuggingFace. Хорошо видно, как рынок сошёлся на MoE + MLA для больших моделей и почему гибридные архитектуры (Mamba-2, DeltaNet, Lightning Attention) набирают ход. ⛓️ Открыть галерею tags: #полезное #llm ➡ Data Scientist | Чат
483
просмотров
549
символов
Нет
эмодзи
Да
медиа

Другие посты @datascience_tg

Все посты канала →
💾 Шпаргалка по архитектурам LLM: от GPT-2 до триллионников — @datascience_tg | PostSniper