Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA. Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли gpt-4o-mini. 🤔 Почему это важно? Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как...
Филиппов Дмитрий - Агент LLM
Канал для AI-инженеров и разработчиков, сфокусированный на создании передовых (SOTA) решений. Практикуем AI SWE (как замену VibeCoding) Разбираем только уникальные и проверенные подходы. Для коммуникации: @filippov_dm
Графики
📊 Средний охват постов
📉 ERR % по дням
📋 Публикации по дням
📎 Типы контента
Лучшие публикации
19 из 19◀️ Что же по Qwen3-4B, - я его запускал не только в обычном режиме, но и с применением некоторого подхода. Я ожидал увидеть заметный прирост, но результаты оказались почти одинаковыми (не знаю, с чего я так решил, что будет какой-то буст, но ресерч - дело такое). Идея заключалась в том, чтобы помочь небольшой модели справиться с большим контекстом. Вместо того чтобы подавать весь контекст целиком, я разделил его на фрагменты (пробовал размеры от 1500 до 3500 токенов). Идея заключалась в следующе...
На этом одном примере, я стабильно получал низкую полноту ответа (всего 20%). Оказалось, проблема не в логике LLM, а в том, в каком виде она получает данные. Я использовал tavily-adapter для поиска, который возвращал содержимое страниц как сплошную строку, вытащенную через bs4. И если ответ был спрятан в таблице, то для LLM это была просто каша из слов. Она не видела никакой структуры. Решение: Я переписал адаптер так, чтобы он преобразовывал контент страницы в структурированный Markdown. ⭐И рез...
Пока в AI чатах бурно обсуждают новые плюшки от антропиков: свежая модель Sonnet 4.5, обновленный Claude Code 2.0, и SDK для создания кодовых агентов. ⭐ Я же делюсь результатами по бенчмарку оценки качества извлечения данных. Напомню, я убрал из процесса этап поиска и подавал моделям контекст со страниц напрямую, чтобы сфокусироваться именно на их аналитических способностях. Контекст был ограничен 10 000 токенов для всех. РЕЗУЛЬТАТЫ Лидерство показала openai/gpt-5 в принципе было ожидаемым, но п...
Наконец-то запустил бенчмарк по оценке качества извлечения данных, взял за основу датасет для DeepResearch SealQA Но как я говорил, этап поиска в этом бенчмарке довольно тривиальный - большинство ссылок ведут на Википедию и легко находятся. Поэтому я решил не мучать этим этапом LLM и сейчас подаю контекст страниц напрямую. Но раз я сменил условия игры - мне нужны данные по разным моделькам, чтобы потом сравнивать результаты. Сейчас запустил на десяти модельках - под капотом простой промпт и конт...
Только вышел новый Codex от OpenAI - тут же появился слитый промт - еще один крутой репозиторий с промтами. Этот промт выдала сама LLM - поэтому за формат и его первозданный вид не ручаюсь. Какие особенности: 1) Формат В основном используется Markdown, но и есть два блока с XML-тегами: <GUIDELINES>: оборачивает целый блок, который является шаблоном. <EXAMPLE_FINAL_ANSWER>: предоставляет конкретный, заполненный пример того, как этот шаблон должен быть реализован. 2) Формализованное и очень специф...
Тестирую модель Qwen3-4B на задаче извлечения релевантных данных. Здесь нужно не просто найти ответ в контексте, а провести аналитическую оценку информации на соответствие запросу. И вот такое чудит, в ризонинге видно, что она правильно определила релевантных игроков, но в финальном ответе все равно написала всех...
В последнее время все чаще звучит мнение: "Vibe Coding не работает". И это правда. Но из этого часто делают неверный вывод: раз Vibe Coding - тупик, то и концепция кодовых агентов провалилась, а значит, программисты могут спать спокойно - вас не заменят. ❌ Мне кажется это фундаментальная ошибка. Проблема не в инструменте, а в хаотичном подходе. Vibe Coding действительно не работает как системная методология - у него слишком много минусов. Но это лишь один, самый примитивный способ использования ...
🤖 Тут генератор промтов OpenAI подвезла, говорят даже оптимизирует под выбранную модель. Если лень писать промт, можете туда общими словами закинуть задачу и запустить оптимизатор - получите более менее нормальный результат. Но не ждите прям какого-то вау эффекта, ничего такого - обычный промт. Поиграться можно тут 🤖
Когда получаешь первые результаты, сразу думаешь: как их улучшить? На первый взгляд, решение казалось очевидным: добавить моему ReAct-агенту больше инструментов. Например, planner или todo-список, чтобы сделать поиск более контролируемым. Но проанализировав логи, я увидел, что мой агент посещал 80% сайтов, на которых содержался правильный ответ. Значит, проблема не в поиске, а в чём-то другом. ⚡Проблема: маленькая LLM еще достаточно плохо анализирует большие объёмы текста. Причем просто извлечь ...