Nvidia проводит конференцию GTC, которую открывает CEO компании. Игровых видеокарт не представят (да и скоро ждать не стоит 😭), зато показали новую железку, сделанную на основе технологий недавно «купленного» стартапа Groq. Groq специализировались на быстрой генерации токенов за счёт того, что в их картах не было HBM — очень быстрой, но всё ещё относительно медленной памяти. Вся модель и ваши токены жили в SRAM — супер-быстрой памяти (в 15+ раз быстрее), с которой напрямую взаимодейст...
Сиолошная
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса. Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/+i_XzLucdtRJlYWUy
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
17 из 17OpenAI запускают серию соревнований, подготовленных членами их исследовательской команды Сейчас открыли первый челлендж: https://openai.com/index/parameter-golf/ Задача — обучить наилучшую языковую модель, которая помещается в 16 МБ и обучается менее чем за 10 минут на 8 H100. Оценка "наилучшести" — по сжатию отложенной части FineWeb, чем лучше модель предсказывает текст, тем лучше. Это очень похоже на NanoGPT спидран от Andrej Karpathy, только там нет ограничения на размер модели, и время не за...
⚡️🚀SpaceX: Завершена начальная кампания по активации тестов Super Heavy V3 и стартовой площадки Starbase Pad 2, в ходе которой впервые была произведена загрузка криогенного топлива и окислителя на ускоритель 3-го поколения. Хотя статические испытания с участием 10 двигателей завершились досрочно из-за проблемы на земле, мы наблюдали успешный запуск всех установленных двигателей Raptor 3. Далее: подготовка ускорителя к статическим испытаниям с участием 33 двигателей.
OpenAI впервые с августа обновила свои мини- и нано- модели. Все мы знаем для чего sus 🤨
Представляете вот вы открываете последнюю статью Terence Tao, «Моцарта от мира математики», а там написано «Первое из этих предположений было доказано с помощью ChatGPT». А представлять теперь и не надо 😭 В своём блоге автор даёт пояснение: — Я так и не понял, как доказать это неравенство, но решил попытать счастья и дать его ChatGPT Pro <и он решил его> Сомнений что без модели математик смог бы разобраться у меня нет; но теперь и решать самому не нужно, достаточно проверить и/или развить ...
Вчера и сегодня много разговоров про TurboQuant — алгоритм сжатия векторов от Google. В статье его применяют для сжатия KV-кэша в LLM (промежуточных состояний для контекста, на основе которых генерируется ответ). TLDR как работает метод в два шага: 1) Сначала алгоритм применяет к входному вектору случайное вращение. Это перемешивает информацию по всем измерениям, и если в векторе было аномально большое значение в одной координате), то при вращении оно равномерно «размазывается» по всем оста...
Anthropic: слегка урезали лимиты в Claude Code из-за растущего спроса. Это касается только 5-часовые лимитов (и заденет примерно 7% самых активных пользователей) OpenAI: каждые 3 дня сбрасывают лимиты, даже просто из-за того, что подул ветер
Большие новости по OpenAI от The Information: - OpenAI завершила предобучение своей следующей крупной модели под названием Spud и ожидает, что уже через несколько недель получит очень сильную модель, способную заметно ускорить экономику. - По словам Сэма…
Про будущую модель от OpenAI мы уже узнали — это Spud, которая недавно закончила тренировку. А вот сегодня ночью FT написали о том, что они нашли незакрытые материалы на сайте Anthropic, в которых говорится о превью их будущей модели — Claude Mythos. Mythos больше Opus по размеру, и существенно дороже в инференсе (😭 пока лимиты). Ну а больше в мире нейросетей — это лучше. На странице Mythos было написано, что модель «демонстрирует качественный скачок в навыках/возможностях». Antr...
Федеральный судья Рита Лин в ходе рассмотрения иска Anthropic к Пентагону заметила, что запрет администрации Трампа на использование госструктурами моделей Anthropic выглядит как наказание компании за то, что она публично раскрыла свой контрактный спор с Пентагоном. По словам судьи, действия правительства «похожи на попытку подорвать Anthropic» и потенциально нарушают Первую поправку. Решение по делу пока не вынесено, но судья запросила дополнительные доказательства. https://www.wsj.com/tech/ai/...