262просмотров
19 февраля 2026 г.
Score: 288
ваши новые сотрудники anthropic опубликовали исследование миллионы сессий claude code
первый масштабный взгляд на то как люди реально работают с агентами success rate на сложных задачах удвоился за четыре месяца
количество вмешательств за это время упало с 5.4 до 3.3 за сессию
результаты стали лучше когда людей стало меньше простые задачи 87% под надзором
сложные 67%
на длинных задачах физически тяжело подтверждать каждый шаг
поэтому серьёзные задачи получают меньше контроля опытные пользователи дают больше свободы
и при этом перебивают агента чаще — с 5% до 9%
они перестали проверять каждое действие
начали наблюдать за потоком и вмешиваться когда чувствуют что пора claude об этом не подозревает кстати
модель систематически переоценивает человеческий надзор
считает что за ней следят внимательнее чем есть программирование всего 50% всего использования агентов
тут результат виден быстрее всего
но finance, healthcare, cybersecurity уже в данных а в это время
0.8% действий агентов сегодня необратимы
0.8% это гигантское число