GPT-OSS от OpenA - это MoE-ракета OpenAI наконец-то показала карты: их open-source флагман GPT-OSS 20B — это Mixture of Experts (MoE) на стероидах. Быстрее, умнее, контекстнее. Но не без косяков. Что интересного: ☹️ MoE + FlashAttention 3 + MXFP4 квантизация = бешеная скорость в своем классе. ☹️ Контекст 256K по схеме RoPE + Sliding Window — глобальные связи + локальная скорость. Не full context, а умный гибрид (схемы гуглите!). ☹️ Заточка под агентов и код: Метрики в районе o4-mini, но с упором...
Artificial Intelion | Новости ИИ
Самое интересное про ИИ. Новости AI и ML для бизнеса. Изучаем, тестируем, рекомендуем Аренда серверов: https://intelion.cloud/tg Обратная связь: @IntelionCloud или по email ai@intelion.cloud
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Qwen3-4B: китайский локомотив опенсорса разгоняется до 256K токенов Alibaba Cloud снова врывается в тренды — их флагманская Qwen3-4B получила серьезный апдейт. Теперь это не просто "еще одна локальная моделька", а полноценный конкурент GPT-oss с контекстом в 256K токенов и двумя режимами на выбор: ☹️ Thinking — для глубокого анализа ☹️ Instruct — для четких инструкций Что за прорыв? ☹️ Рост метрик — модель стала умнее, быстрее и стабильнее ☹️ Гигантский контекст — 256K токенов против прежних скр...
😂 Инфраструктура под ИИ: где размещать, как масштабировать и не переплатить? Вы уже поняли, что ИИ требует особой инфраструктуры. Но как выбрать между облаком и локальным решением? Как снизить затраты на электропотребление при работе с GPU? Какие требования к данным — чтобы модель не «доучивалась» на шуме? Об этом — блок «Инфраструктура и данные для ИИ», который ведет Максим Вязников — CEO Intelion Cloud, эксперт по высоконагруженным ИТ-решениям и оптимизации вычислительных ресурсов. Что вы узн...
Как посчитать VRAM для LLM: гайд, который сэкономит вам кучу времени (и денег) Вы запускаете нейросеть, всё готово — и… CUDA out of memory. Знакомо? Мы написали подробный, но простой гайд о том, как рассчитать, сколько VRAM реально нужно для запуска больших языковых моделей (LLM). Для кого статья: ☹️ Data Scientists, которые экспериментируют с LLaMA, Mistral и другими LLM ☹️ ML-инженеры и те, кто fine-tune'ит модели под узкие задачи ☹️ Стартаперы, планирующие MVP с нейросетями ☹️ Руководители ко...
Genie 3 от Google: нейросетка, которая держит мир в голове (и рисует его в 720p) Google DeepMind выкатила Genie 3 — новое поколение World Models. Это не просто генератор картинок, а нейронные игровые движки, создающие целые миры по текстовому промпту. И в них можно жить. Чем Genie 3 круче своего предка (Genie 2)? ☹️ 720p vs 360p: Четкость выросла в разы — мир больше не напоминает кашу из пикселей. ☹️ Минуты vs секунды: Взаимодействие длится не жалкие 10-20 секунд, а целые минуты стабильной симул...
Инна Телионова рассказала про свой опыт использования серверов Интелион Облако Чтобы ускорить работу своих LLM на десятки часов — берите GPU сервер в Интелион Облако. ☹️ Промокод: START Ставьте ❤️ если понравился такой формат #GPU #ии #нейросети 🙂 Artificial Intelion
Gemini Deep Think теперь в Ultra-подписке: элитный ИИ для тех, кто мыслит в 4 потока Google продолжает наращивать ИИ-мощности — и завозит в Ultra-подписку новую оптимизированную версию Gemini Deep Think. Что это за зверь? ☹️ Это модель, на которой Google взяла золото на Международной математической олимпиаде (IMO). Да, модель умеет решать задачи, от которых у обычных LLM начинают дрожать токены. ☹️ Deep Think запускает параллельные потоки рассуждения, а потом собирает из них лучший результат — п...
OpenAI строит ИИ-будущее в Норвегии: второй датацентр Stargate OpenAI продолжает разворачивать глобальный проект Stargate — на этот раз в Норвегии. До конца 2026 года в стране появится датацентр нового поколения: 100.000 GPU, 230 МВт потребления, работающий исключительно на возобновляемых источниках энергии. Если датацентр в ОАЭ — это ИИ-супероружие на нефтедолларах, то Норвегия делает ставку на зелёную инфраструктуру и европейскую экосистему: ☹️Охлаждение: замкнутый цикл жидкостного охлаждения ...
LoRA-инференс на максималках Если вы используете LoRA-модули для кастомизации моделей генерации изображений, то вы точно сталкивались с проблемой: как запустить LoRA в проде — быстро и без боли? Команда HuggingFace поделилась новым рецептом оптимизации LoRA-инференса на моделях Flux, и он выглядит... мощно. Что они предлагают: ☹️ torch.compile() — ускоряем инференс прямо на уровне графа ☹️ Flash Attention 3 — если модель это умеет, будет быстрее ☹️ FP8-квантизация — динамическая, для подходящих ...
⚡️ИИ умнее нобелевских лауреатов Глава Anthropic Dario Amodei выкатил тревожное эссе: по его словам, ИИ с интеллектом выше уровня нобелевских лауреатов может появиться уже в течение 1–2 лет. Это не хайп для инвестпрезентаций — это человек, который сам строит frontier-модели. Что он имеет в виду? ☹️ ИИ, способный делать научные открытия, а не пересказывать статьи ☹️ Системы, которые пишут код, проектируют архитектуры и оптимизируют себя ☹️ Модели, которые масштабируются быстрее, чем мы успеваем п...