Enterprise RAG Challenge 3 - кратко про опыт На неделе расск — @transform_the_energy

342просмотров

18 января 2026 г.

stats📷 ФотоScore: 376

Enterprise RAG Challenge 3 - кратко про опыт На неделе рассказывал про это соревнование на митапе, а тут - "коротко" 😅 по итогам. Я занял 8 место в призовом лидерборде. Для меня это реально крутой результат, учитывая, что в конкурсе были ребята из Яндекса, Сбера, EPAM и просто очень сильные инженеры. Что это за челлендж Дают “виртуальную компанию”: вики, правила, сотрудников, проекты, клиентов, учёт времени + API. Агент должен решать задачи типа: «забиллить 3 часа нужному человеку на нужный проект по правилам компании и вернуть корректный ответ со ссылками». Как я строил агента - заранее углублял контекст (пользователь, проекты, клиенты - уменьшаем агенту рутинную работу, расширяем контекст) - вытаскивал из Wiki релевантные секции ("Безопасность", "Требования к формату вывода", "Иерархия в компании" и т.д) - собирал промпт: wiki-правила + свои ограничения - вынес security в отдельный gate, чтобы если пользователь лезет туда, куда нельзя, агент должен сразу это “отрезать” по правилам безопасности. - execution-agent (ReAct) + отдельный tool для генерации ссылок, чтобы модель не выводила в ответ всё подряд. Что бы я сделал иначе Мой главный фейл - контекст-менеджмент. Я слишком “жадно” тянул данные, чтобы агент быстрее “догадался”. Но на проде контекст раздувается ещё и историей шагов и ответов тулов. Надо было агрессивнее/хитрее сжимать контекст, ещё часть тулов (особенно вокруг тайм-трекинга) была недостаточно оттестирована под разные формулировки задач - и на проде это вылезло. Что подсмотрел у победителей (и что реально работает) - Agent improves agent - автоматизированные улучшения вместо ручного допиливания промптов. Для меня это главная находка при построении агентов. (Решение Алексея, 1 место) - Валидатор - отдельный агент, который до действия даёт фидбек: «это вообще надо делать?» и «мы точно туда идём?» (Решение Ильи, 2 место) - Роутинг / оркестрация - выбор стратегии под тип задачи, если задача распознаётся как известный шаблон → запускается заранее описанный сценарий действий. Минус - нужно хорошо покрыть паттернами реальные формулировки. На призовом запуске это не сработало, потому что dev и prod задачи сильно отличались. Но после открытия ответов паттерны можно выделять уже с помощью LLM в цикле. (см. Hybrid Agent System) Главный вывод для себя Когда студенческие годы уже позади, а вокруг семья, дети и работа - участие в таких соревнованиях с одной стороны роскошь, а с другой - очень эффективный способ прокачать навыки в сжатые сроки. И, честно, оно того стоит.

Другие посты @transform_the_energy