2.3Kпросмотров
7 апреля 2025 г.
statsScore: 2.5K
👆👆👆 (часть 1) Теперь конкретно, по моделям: 1️⃣ Llama 4 Scout: Это «младшая» версия с 109 млрд параметров, из которых активны одновременно только 17 млрд, благодаря новой архитектуре MoE (Mixture of Experts с 16 экспертами). Огромный плюс — супердлинный контекст до 10 миллионов токенов! Идеален для анализа больших документов, текстов или даже длинных видео. Scout мультимодален (текст + изображение), и при квантовании в int4 его реально запустить даже на одной видеокарте типа H100. 2️⃣ Llama 4 Maverick: Это уже версия посерьезнее — 400 млрд параметров (активны тоже 17 млрд, но уже целых 128 экспертов!). Контекст до 1 миллиона токенов, также мультимодален (текст + изображение). Показатели действительно топовые, смело может конкурировать с GPT-4o по ряду задач. Версия FP8 оптимизирована под запуск на одном серверном узле с 8xH100. 3️⃣ Llama 4 Behemoth (2 триллиона параметров) — пока ещё обучается, но уже ясно: это настоящая «пушка», ждём с нетерпением! Что всё это значит на практике?
↳ Мультимодальность: работа не только с текстами, но и с картинками, а Scout при 10М токенах обрабатывает даже видео длительностью до 20 часов. ↳ Очень большой объём данных для обучения — теперь 30 триллионов токенов (в 2 раза больше, чем у Llama 3). Включает данные на 200 языках (из них официально поддерживаемых 12, но всегда можно адаптировать модель под нужный язык с помощью лицензии Llama 4 Community License). ↳ Новая архитектура MoE, впервые использованная в моделях Meta — позволяет системе задействовать только те части модели, которые нужны прямо сейчас, обеспечивая высокую скорость и эффективность. ↳ Пока это версии типа Instruct, поэтому для полноценного сравнения по reasoning-задачам (логика, рассуждения) лучше дождаться отдельных моделей Reasoning, о которых, скорее всего, подробнее расскажут на LLAMACon в конце апреля. В общем, обновление действительно стоящее, я доволен и продолжаю тестировать. Всем рекомендую попробовать самим, это новый уровень! 🤓 P.S. Тут поднимается интересная волна что Llama 4 всех обманула, хочешь знать больше и как я на это смотрю? Ставь реакцию 🔥 #llama #llm #leaderboard #dataworkshop @data_work