dumbass recherche
retired from sad, new career in business | попытки в MLE by @seniichev
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
15 из 15ДРОПНУЛИ ПЕРВУЮ СТАТЬЮ НА АРХИВ и дейли пейперс СТАВЬТЕ КЛАССЫ hf daily papers github
когда гдз для бенчмарков будет уже
Anthropic обнаружила, что в BrowseComp Claude Opus 4.6 иногда становился “eval-aware” - то есть начинал понимать, что проходит бенчмарк. Само по себе это вроде не ново, но тут случилось кое-что интересное дальше - модель пошла на гит искать ответы. В одном случае модель потратила около 40,5 млн токенов на обычный поиск, после чего заподозрила, что вопрос слишком специфичен и может быть частью eval. Затем она начала перебирать возможные бенчмарки, включая GAIA, BrowseComp, FRAMES и SimpleQA, нашл...
всем привет, произошел субботний дроп на демо трек асл 2026 🫃 подробнее про все расскажу, когда статьи будут на архиве / откроется доступ на опенревью, но тлдр: 1. крутые коллеги из крутой соседней команды выкладывают в опенсорс свой крутой автомл aka autonlu фреймворк - OpenAutoNLU. в нем очень хороший ood detection на который было потрачено много сил и времени, ребята правда очень крутые! я помогал им с написанием статьи и проводить эксперемент для sbs с конкурентами 2. вторая демо статья - ф...
✅✅
Так, коллеги мы в чьем-то слопе https://youtu.be/Zxn3elk7U1Y
мотивация работать жестко прибавилась, да?
канал превращается в паблик скриншотов сообщений с боссом