Я проработала 2 дня и поняла, что мне срочно нужно поправлять ментальное здоровье, скинув много мэмов сюда в канал Предпоследний это тот кому пишет 🎀она🎀 с последнего: «чел, выходи в 19 после моего последнего мита. Успеем сгонять до сабмита в 23:59 UTC» #воскрестныйStrongGirlsVibe (почти)
что-то на DL-ском
Авторка активно хочет зашарить все на свете и делится в этом канале. NLP ⊂ AI → NLP/CV/speech ⊂ AI Связаться со мной @nadlsskom Тг буст канала: https://t.me/nadlskom?boost
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
10 из 10Как заставить агентов делать работу над ошибками Сегодня разбираем статью об обучении агентов. Проблема такая: реворд-модели оценивают только результат в конце траектории, а если агент сделал ошибку и исправил её, нельзя сказать, когда это произошло. Если бы у нас была такая возможность, то мы могли бы раньше направить обучаемую LLM по нужному пути. Есть способы фиксировать ошибки и делать реворд по шагам, но это дорого и сложно в реализации. Авторы предлагают метод Agent-R, суть которого заключ...
Мы тут в Агенте бронирования Яндекс Алисы😎 с командой в прошлом полугодии знатно упарывались в качество reward-конструкта. И теперь я ответственно заявляю, что именно это в итоге привело меня к выступлению на OpenTalks в Белграде 20-го числа🙂 В какой-то момент, копаясь в исследованиях агентности для сценариев бронирования, мы пришли к довольно неприятному, но важному осознанию. В текущих подходах к RL-оптимизации агента есть системная проблема Формулировали мы её так. Когда мы оптимизируем обу...
А ЧТО БУДЕТ ЕСЛИ ДАТЬ АГЕНТУ ПОДУМАТЬ ПОДОЛЬШЕ? Scaling Test-time Compute for LLM Agents Первое систематическое исследование test-time scaling для языковых агентов. Не для LLM на задачках по математике, а прям для агентов с тулами, мультистепами и тд. Тестировали на GAIA бенчмарке (165 задач, 3 уровня сложности), базовая модель GPT-4.1 Суть проблемы в том, что обычные LLM BoN работают тривиально (сгенерил N ответов, выбрал лучший). В агентах всё сложнее. У нас есть цепочка шагов, ошибки накаплив...
🤗Не могу не хвалить команду hf за постоянно появляющиеся интересные блогпосты для образования. В этот раз ресерч по синтетическим данным для претрена. Не просто в виде «вот вам датсасет, мы там записали тех детали. Отстаньте». Это большой очередной playbook в который можно потыкаться на досуге На повестке новый блогпост с 1 триллионом сгенерированных токенов и главным вопросом, на который пытаются ответить что вообще делает датасет синтетических данных хорошим?🤔 Интересные находки: 💛формат пр...
Взялась разобрать многообещающую статью в соседнем Яндекс канале «Душный NLP». Всё хочу написать постик про то, что считаю перспективным в агентах на ближайшее время и это одна из таких тем На мой взгляд это другая сторона монеты от RL обучения. Agent-R решает проблему credit assignment через self-correction (учит модель ловить свои ошибки на лету и переписывать траекторию) Почему я считаю это важным для агентов в 2026: 💅RL + Self-correction = комбо. Сейчас это два отдельных направления, но они...
Не прошло и месяца с дат OpenTalks, но это победа, что я добралась вообще суммаризовать в пост то, что обсуждалось по теме агентности на конференции и выписать в канал главные тренды в индустрии 1. Горизонт агентности Про график, приложенный к этому посту. Он показывает время задач, которые агенты решают автономно. Это время удваивается каждые 7 месяцев, согласно тенденции на нем. R² = 0.98 на экспоненте. Claude 3.7 Sonnet сейчас на отметке 1 час автономной работы без ошибки. При этом GPT-2 в 20...
Пару недель назад мне в руки попал оч интересный документ с описанием ресерча по проекту для black-box мониторинга агентов. Делиться на большую аудиаторию ссылкой не буду, но опишу, какие детали натолкнули меня на ебанные идеи для ресерча и какие практики я бы перетаскивала в другие проекты Конкретный пример, который обсуждался в доке скорее связан с AI safety. Задача: агент выполняет тул колы и делает действия. Нам видно только это. Но потенциально может модифицировать файлы, меняет права досту...
У админки сегодня день рождения. Если сильно хотите порадовать донатиком предоставляю такую возможность и буду очень счастлива. На донатик подсниму карточки для доп экспов по новой статейке на тему user LLM🥰👄 USDT (TRC20) TEjuioXPYvSazRrFLJKSHTUYsV92vmNNeY