Вместе с коллегами по цеху взялись за интересный бенчмарк по — @filippovd_ai

5.8Kпросмотров

19 сентября 2025 г.

📷 ФотоScore: 6.4K

Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA. Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли gpt-4o-mini. 🤔 Почему это важно? Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как раз и помогают понять реальные возможности небольших моделей. Мы сравниваем два подхода: 1. SGR Deep Research от Neural Kovalski. Это архитектура React NextStep на основе гибридного подхода SO. Уже есть зрелая реализация GitHub 2. Мой подход: классический ReAct-агент с одним-единственным инструментом для поиска в интернете. Моя цель создать базовый уровень, чтобы было с чем сравнивать. Пока сырой вариант GitHub (не рекомендую использовать) 📈 Первые результаты (из 111 вопросов): SGR Deep Research: 28 правильных ответов. Мой ReAct + FC: 12 правильных ответов. * Официальный бенчмарк для gpt-4o-mini: 0 правильных ответов. Вывод: простой ReAct-агент даже на небольшой модели уже показывает результат, значительно превосходящий нулевой уровень. Далее подробнее о результатах, проблемах и их решениях. ⬇️

Другие посты @filippovd_ai