2.8Kпросмотров
94.4%от подписчиков
3 марта 2026 г.
Score: 3.1K
Сегодня ребята из Nebius релизнули новую версию SWE-rebench-v2. Большой бенчмарк для оценки способности агентов решать задачи в реальных кодовых базах для разных языков программирования. Видно, что ребята проделали колоссальную работу, чтобы собрать такой датасет. Поддержите лайком на HF Papers, чтобы больше людей знали про хорошую статью! И отдельно порекомендую канал Ибрагима, автора статьи. Все про кодинговых агентов, крутые технические заметки, карьера в рисерче и наблюдения из жизни!