Видать давление со стороны Антропика и Гугла вынудило OpenAI зашевелиться. Демонструют более эффективный tool use в сравнении с GPT-5.2, за меньшее число вызовов достигают лучшего качества. И якобы качество кодинга при той же latency чуть лучше, чем у специализированной GPT-5.3-Codex. https://openai.com/index/introducing-gpt-5-4/
КПД
Квантование & Прунинг & Дистилляция Блог про сжатие сетей и не только. От древнейших времен по настоящее время.
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
20 из 20Появились слухи, что грядет DeepSeek-V4. Интересно, почему INT8, а не FP8 или даже NVFP4?)
Тупая, как пробка, но невероятно быстрая
Из новостей 📰 Небезызвестный Георгий Герганов, автор llama.cpp, GGML и GGUF, переходит к лицехватам 🤗. Утверждается, что они совместно продолжат развитие проектов Г.Г. https://x.com/ggerganov/status/2024839991482777976
Слабо даже для Llama 3.1-8B. Может оно еще квантизовано в 1 бит?) (UPD как внимательно заметили, там 4 бита)
Краткий обзор, посвященный исследованиям влияния температуры 🤒 на качество генераций БЯМ и разным методикам подбора адаптивной температуры. В частности, рассмотрены разные варианты - обучаемые и entropy-based, с глобальной температурой на последовательность и потокенной. Одна из эвристик предлагает поднимать температуру, когда модель не уверена в предсказании, и понижать в противном случае. Существуют также разные опции RL-я и meta-learning для предсказания оптимальной температуры на инференсе....
Ну лан, 2-битный AQLM.rs тоже не очень справляется
🔬 Метод Первое наблюдение, которое делают авторы, что сила энкодера не всегда соответствует качеству генерации. Например, переход от DINOv2 к DINOv3, DINOv2-B к DINOv2-L ухудшает качество, хотя, казалось бы, внешняя модель должна была выучить лучшие репрезентации. Потому предлагают выравнивать представления от самой модели на разных уровнях шума. Но как это правильно сделать 🤔? Пробовали некоторые токены полностью зашумлять или зашумлять все независимо. Но это приводит к несовпадению между обу...
🔬 Метод Концептуально нового вроде бы ничего не предлагается. Модифицированный алгоритм GPTQ одновременно обрабатывает разные битности квантизации и ошибка реконструкции получается как взвенная сумма по разным битностям. С теми же весами обновляются неквантизованные веса в GPTQ. Кроме того, для поиска оптимальной конфигурации под заданную битность опционально применяют EvoPress. Под это дело пишут быстрые кернелы по типу Marlin под Ampere архитектуру. У реализации две особенности - транспониров...
Самое любопытное во всей этой истории то, что вложив много сил в развитие SSM, Tri Dao убивает их, выпуская новые версии Flash Attention.