КПД

@quant_prune_distill💻 Технологии🇷🇺 Русский📅 март 2026 г.

Квантование & Прунинг & Дистилляция Блог про сжатие сетей и не только. От древнейших времен по настоящее время.

📊 Полная статистика 📝 Все посты

3.1K

Подписчики

1.6K

Ср. охват

50.7%

Вовлечённость

Постов

~0.6

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

20 из 20

quant_prune_distill

5 мар., 19:13

Видать давление со стороны Антропика и Гугла вынудило OpenAI зашевелиться. Демонструют более эффективный tool use в сравнении с GPT-5.2, за меньшее число вызовов достигают лучшего качества. И якобы качество кодинга при той же latency чуть лучше, чем у специализированной GPT-5.3-Codex. https://openai.com/index/introducing-gpt-5-4/

👁 2.5K

📊 Аналитика

quant_prune_distill

11 мар., 14:53

Появились слухи, что грядет DeepSeek-V4. Интересно, почему INT8, а не FP8 или даже NVFP4?)

👁 2.1K📷 photo

📊 Аналитика

quant_prune_distill

20 февр., 08:20

Тупая, как пробка, но невероятно быстрая

👁 2.0K📷 photo

📊 Аналитика

quant_prune_distill

20 февр., 16:00

Из новостей 📰 Небезызвестный Георгий Герганов, автор llama.cpp, GGML и GGUF, переходит к лицехватам 🤗. Утверждается, что они совместно продолжат развитие проектов Г.Г. https://x.com/ggerganov/status/2024839991482777976

👁 2.0K

📊 Аналитика

quant_prune_distill

20 февр., 08:22

Слабо даже для Llama 3.1-8B. Может оно еще квантизовано в 1 бит?) (UPD как внимательно заметили, там 4 бита)

👁 2.0K

📊 Аналитика

quant_prune_distill

9 мар., 15:35

Краткий обзор, посвященный исследованиям влияния температуры 🤒 на качество генераций БЯМ и разным методикам подбора адаптивной температуры. В частности, рассмотрены разные варианты - обучаемые и entropy-based, с глобальной температурой на последовательность и потокенной. Одна из эвристик предлагает поднимать температуру, когда модель не уверена в предсказании, и понижать в противном случае. Существуют также разные опции RL-я и meta-learning для предсказания оптимальной температуры на инференсе....

👁 1.9K

📊 Аналитика

quant_prune_distill

20 февр., 08:37

Ну лан, 2-битный AQLM.rs тоже не очень справляется

👁 1.8K📷 photo

📊 Аналитика

quant_prune_distill

5 мар., 16:54

🔬 Метод Первое наблюдение, которое делают авторы, что сила энкодера не всегда соответствует качеству генерации. Например, переход от DINOv2 к DINOv3, DINOv2-B к DINOv2-L ухудшает качество, хотя, казалось бы, внешняя модель должна была выучить лучшие репрезентации. Потому предлагают выравнивать представления от самой модели на разных уровнях шума. Но как это правильно сделать 🤔? Пробовали некоторые токены полностью зашумлять или зашумлять все независимо. Но это приводит к несовпадению между обу...

👁 1.8K

📊 Аналитика

quant_prune_distill

26 февр., 10:29

🔬 Метод Концептуально нового вроде бы ничего не предлагается. Модифицированный алгоритм GPTQ одновременно обрабатывает разные битности квантизации и ошибка реконструкции получается как взвенная сумма по разным битностям. С теми же весами обновляются неквантизованные веса в GPTQ. Кроме того, для поиска оптимальной конфигурации под заданную битность опционально применяют EvoPress. Под это дело пишут быстрые кернелы по типу Marlin под Ampere архитектуру. У реализации две особенности - транспониров...

👁 1.6K

📊 Аналитика

quant_prune_distill

17 мар., 19:47

Самое любопытное во всей этой истории то, что вложив много сил в развитие SSM, Tri Dao убивает их, выпуская новые версии Flash Attention.

👁 1.5K

📊 Аналитика

Типы хуков

Нейтральный15 | 1.6K просм.

Статистика4 | 1.5K просм.

Вопрос1 | 1.3K просм.

Длина постов

Короткие (<200)6 | 1.7K просм.

Средние (200-500)6 | 1.5K просм.

Очень длинные (1000+)5 | 1.4K просм.

Длинные (500-1000)3 | 1.6K просм.

Влияние эмодзи

1.5K

С эмодзи (8)

1.6K

Без эмодзи (12)

-4.0% охвата

Типы контента

📝

text

1.6K просм.

📷

photo

1.5K просм.

✅ 95/100

Активность естественная

#3061

из 13,332 в Технологии