ККПД

КПД

@quant_prune_distill💻 Технологии🇷🇺 Русский📅 март 2026 г.

Квантование & Прунинг & Дистилляция Блог про сжатие сетей и не только. От древнейших времен по настоящее время.

📊 Полная статистика📝 Все посты
3.1K
Подписчики
1.6K
Ср. охват
50.7%
Вовлечённость
20
Постов
~0.6
В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

20 из 20
Qquant_prune_distill
quant_prune_distill
5 мар., 19:13

Видать давление со стороны Антропика и Гугла вынудило OpenAI зашевелиться. Демонструют более эффективный tool use в сравнении с GPT-5.2, за меньшее число вызовов достигают лучшего качества. И якобы качество кодинга при той же latency чуть лучше, чем у специализированной GPT-5.3-Codex. https://openai.com/index/introducing-gpt-5-4/

👁 2.5K
Qquant_prune_distill
quant_prune_distill
11 мар., 14:53

Появились слухи, что грядет DeepSeek-V4. Интересно, почему INT8, а не FP8 или даже NVFP4?)

👁 2.1K📷 photo
Qquant_prune_distill
quant_prune_distill
20 февр., 08:20

Тупая, как пробка, но невероятно быстрая

👁 2.0K📷 photo
Qquant_prune_distill
quant_prune_distill
20 февр., 16:00

Из новостей 📰 Небезызвестный Георгий Герганов, автор llama.cpp, GGML и GGUF, переходит к лицехватам 🤗. Утверждается, что они совместно продолжат развитие проектов Г.Г. https://x.com/ggerganov/status/2024839991482777976

👁 2.0K
Qquant_prune_distill
quant_prune_distill
20 февр., 08:22

Слабо даже для Llama 3.1-8B. Может оно еще квантизовано в 1 бит?) (UPD как внимательно заметили, там 4 бита)

👁 2.0K
Qquant_prune_distill
quant_prune_distill
9 мар., 15:35

Краткий обзор, посвященный исследованиям влияния температуры 🤒 на качество генераций БЯМ и разным методикам подбора адаптивной температуры. В частности, рассмотрены разные варианты - обучаемые и entropy-based, с глобальной температурой на последовательность и потокенной. Одна из эвристик предлагает поднимать температуру, когда модель не уверена в предсказании, и понижать в противном случае. Существуют также разные опции RL-я и meta-learning для предсказания оптимальной температуры на инференсе....

👁 1.9K
Qquant_prune_distill
quant_prune_distill
20 февр., 08:37

Ну лан, 2-битный AQLM.rs тоже не очень справляется

👁 1.8K📷 photo
Qquant_prune_distill
quant_prune_distill
5 мар., 16:54

🔬 Метод Первое наблюдение, которое делают авторы, что сила энкодера не всегда соответствует качеству генерации. Например, переход от DINOv2 к DINOv3, DINOv2-B к DINOv2-L ухудшает качество, хотя, казалось бы, внешняя модель должна была выучить лучшие репрезентации. Потому предлагают выравнивать представления от самой модели на разных уровнях шума. Но как это правильно сделать 🤔? Пробовали некоторые токены полностью зашумлять или зашумлять все независимо. Но это приводит к несовпадению между обу...

👁 1.8K
Qquant_prune_distill
quant_prune_distill
26 февр., 10:29

🔬 Метод Концептуально нового вроде бы ничего не предлагается. Модифицированный алгоритм GPTQ одновременно обрабатывает разные битности квантизации и ошибка реконструкции получается как взвенная сумма по разным битностям. С теми же весами обновляются неквантизованные веса в GPTQ. Кроме того, для поиска оптимальной конфигурации под заданную битность опционально применяют EvoPress. Под это дело пишут быстрые кернелы по типу Marlin под Ampere архитектуру. У реализации две особенности - транспониров...

👁 1.6K
Qquant_prune_distill
quant_prune_distill
17 мар., 19:47

Самое любопытное во всей этой истории то, что вложив много сил в развитие SSM, Tri Dao убивает их, выпуская новые версии Flash Attention.

👁 1.5K

Типы хуков

Нейтральный15 | 1.6K просм.
Статистика4 | 1.5K просм.
Вопрос1 | 1.3K просм.

Длина постов

Короткие (<200)6 | 1.7K просм.
Средние (200-500)6 | 1.5K просм.
Очень длинные (1000+)5 | 1.4K просм.
Длинные (500-1000)3 | 1.6K просм.

Влияние эмодзи

1.5K
С эмодзи (8)
1.6K
Без эмодзи (12)
-4.0% охвата

Типы контента

📝
12
text
1.6K просм.
📷
8
photo
1.5K просм.
КПД (@quant_prune_distill) — Telegram-канал | PostSniper