1.8Kпросмотров
41.4%от подписчиков
16 марта 2026 г.
📷 ФотоScore: 1.9K
Не прошло и месяца с дат OpenTalks, но это победа, что я добралась вообще суммаризовать в пост то, что обсуждалось по теме агентности на конференции и выписать в канал главные тренды в индустрии 1. Горизонт агентности Про график, приложенный к этому посту. Он показывает время задач, которые агенты решают автономно. Это время удваивается каждые 7 месяцев, согласно тенденции на нем. R² = 0.98 на экспоненте. Claude 3.7 Sonnet сейчас на отметке 1 час автономной работы без ошибки. При этом GPT-2 в 2019 году решал задачи на 2 секунды. И сама тенденция сильно удивляет, формируя что-то похожее на закон Мура для 21 века. Что это значит в моем понимании для разработки агентов? Проектировать системы нужно уже сейчас под возрастающую автономность, а не под текущие возможности 2. TreeSearch парадигма перспективнее ReACT AIDE на MLE-bench показал o1-preview на уровне 16.9% медалей. ReACT показал себя в аналогии с написанием текста без возможности редактировать. Если ошибся на шаге 3 весь дальнейший контекст будет испорчен. Tree Search добавляет бэктрекинг. Каждый шаг – это точка ветвления, а не точка невозврата 3. RL сжимает, sft расширяет Авторы статьи через граф рассуждений показали механизм. Каждое рассуждение – это граф, узлы его логические шаги, а рёбра переходы. Подгоняют экспоненту X(R) ~ e^(-λR) и смотрят на λ 💛sft снижает λ в 3 раза: граф становится «плоским», все узлы равнозначны. Модель знает тысячу способов сделать промежуточный шаг, но не умеет ранжировать по важности. Плюс длина вывода заметно увеличивается
💛RL повышает λ в 2.5 раза: граф превращается в звезду и несколько хабов держат весь трафик. Меньше разнообразия, но зато правильные пути доминируют 4. Swarm, а не монолитный агент Парадигма, где вместо одного монолитного агента, который последовательно тащит весь контекст, есть оркестратор + рой замороженных субагентов. Оркестратор динамически декомпозирует задачу и запускает субагентов параллельно (каждый решает свою подзадачу), результаты агрегируются обратно. Когда и как параллелизоваться модель учится сама через RL, это не задаётся руками. Субагенты заморожены намеренно. Это решает два больных места совместного обучения. 1) Непонятно кому присваивать reward если что-то пошло не так, 2) и система нестабильна когда все части меняются одновременно.
Попробовала на выходных это в Claude code и на практике теперь очень довольна эффектом *Собирала этот материал из части слайдов доклада Kali Novskaya и разговоров в свободное от докладов время. Спасибо всем за материал🌚