Филиппов Дмитрий - Агент LLM

@filippovd_ai💻 Технологии🇷🇺 Русский📅 март 2026 г.

Канал для AI-инженеров и разработчиков, сфокусированный на создании передовых (SOTA) решений. Практикуем AI SWE (как замену VibeCoding) Разбираем только уникальные и проверенные подходы. Для коммуникации: @filippov_dm

📊 Полная статистика 📝 Все посты

##ai#llm#promptengineering#голосовыеагенты#ииассистент#livekit#autogen#архитектураии

375

Подписчики

789,421

Ср. охват

210.5%

Вовлечённость

Постов

~0.1

В день

Графики

📊 Средний охват постов

📉 ERR % по дням

📋 Публикации по дням

📎 Типы контента

Лучшие публикации

19 из 19

filippovd_ai

19 сент., 09:49

Вместе с коллегами по цеху взялись за интересный бенчмарк по deep research - SealQA. Хотим протестировать разные подходы к реализации ReAct-агентов, но с одним важным условием: использовать только небольшие LLM, в идеале до 30B параметров. Сейчас для тестов взяли gpt-4o-mini. 🤔 Почему это важно? Большие LLM, без сомнения, справляются лучше, но они всё ещё дороги. И хотя со временем все модели дешевеют, вопрос выбора оптимальной LLM под конкретную задачу никуда не денется. Такие исследования как...

👁 5.8K📷 photo

📊 Аналитика

filippovd_ai

30 сент., 07:36

◀️ Что же по Qwen3-4B, - я его запускал не только в обычном режиме, но и с применением некоторого подхода. Я ожидал увидеть заметный прирост, но результаты оказались почти одинаковыми (не знаю, с чего я так решил, что будет какой-то буст, но ресерч - дело такое). Идея заключалась в том, чтобы помочь небольшой модели справиться с большим контекстом. Вместо того чтобы подавать весь контекст целиком, я разделил его на фрагменты (пробовал размеры от 1500 до 3500 токенов). Идея заключалась в следующе...

👁 994📷 photo

📊 Аналитика

filippovd_ai

19 сент., 10:18

На этом одном примере, я стабильно получал низкую полноту ответа (всего 20%). Оказалось, проблема не в логике LLM, а в том, в каком виде она получает данные. Я использовал tavily-adapter для поиска, который возвращал содержимое страниц как сплошную строку, вытащенную через bs4. И если ответ был спрятан в таблице, то для LLM это была просто каша из слов. Она не видела никакой структуры. Решение: Я переписал адаптер так, чтобы он преобразовывал контент страницы в структурированный Markdown. ⭐И рез...

👁 691📷 photo

📊 Аналитика

filippovd_ai

29 сент., 22:33

Пока в AI чатах бурно обсуждают новые плюшки от антропиков: свежая модель Sonnet 4.5, обновленный Claude Code 2.0, и SDK для создания кодовых агентов. ⭐ Я же делюсь результатами по бенчмарку оценки качества извлечения данных. Напомню, я убрал из процесса этап поиска и подавал моделям контекст со страниц напрямую, чтобы сфокусироваться именно на их аналитических способностях. Контекст был ограничен 10 000 токенов для всех. РЕЗУЛЬТАТЫ Лидерство показала openai/gpt-5 в принципе было ожидаемым, но п...

👁 671📷 photo

📊 Аналитика

filippovd_ai

26 сент., 19:48

Наконец-то запустил бенчмарк по оценке качества извлечения данных, взял за основу датасет для DeepResearch SealQA Но как я говорил, этап поиска в этом бенчмарке довольно тривиальный - большинство ссылок ведут на Википедию и легко находятся. Поэтому я решил не мучать этим этапом LLM и сейчас подаю контекст страниц напрямую. Но раз я сменил условия игры - мне нужны данные по разным моделькам, чтобы потом сравнивать результаты. Сейчас запустил на десяти модельках - под капотом простой промпт и конт...

👁 594📷 photo

📊 Аналитика

filippovd_ai

16 сент., 13:11

Только вышел новый Codex от OpenAI - тут же появился слитый промт - еще один крутой репозиторий с промтами. Этот промт выдала сама LLM - поэтому за формат и его первозданный вид не ручаюсь. Какие особенности: 1) Формат В основном используется Markdown, но и есть два блока с XML-тегами: <GUIDELINES>: оборачивает целый блок, который является шаблоном. <EXAMPLE_FINAL_ANSWER>: предоставляет конкретный, заполненный пример того, как этот шаблон должен быть реализован. 2) Формализованное и очень специф...

👁 589📷 photo

📊 Аналитика

filippovd_ai

24 сент., 21:54

Тестирую модель Qwen3-4B на задаче извлечения релевантных данных. Здесь нужно не просто найти ответ в контексте, а провести аналитическую оценку информации на соответствие запросу. И вот такое чудит, в ризонинге видно, что она правильно определила релевантных игроков, но в финальном ответе все равно написала всех...

👁 520📷 photo

📊 Аналитика

filippovd_ai

7 авг., 07:03

В последнее время все чаще звучит мнение: "Vibe Coding не работает". И это правда. Но из этого часто делают неверный вывод: раз Vibe Coding - тупик, то и концепция кодовых агентов провалилась, а значит, программисты могут спать спокойно - вас не заменят. ❌ Мне кажется это фундаментальная ошибка. Проблема не в инструменте, а в хаотичном подходе. Vibe Coding действительно не работает как системная методология - у него слишком много минусов. Но это лишь один, самый примитивный способ использования ...

👁 513📷 photo

📊 Аналитика

filippovd_ai

12 авг., 21:39

🤖 Тут генератор промтов OpenAI подвезла, говорят даже оптимизирует под выбранную модель. Если лень писать промт, можете туда общими словами закинуть задачу и запустить оптимизатор - получите более менее нормальный результат. Но не ждите прям какого-то вау эффекта, ничего такого - обычный промт. Поиграться можно тут 🤖

👁 505📷 photo

📊 Аналитика

filippovd_ai

19 сент., 10:17

Когда получаешь первые результаты, сразу думаешь: как их улучшить? На первый взгляд, решение казалось очевидным: добавить моему ReAct-агенту больше инструментов. Например, planner или todo-список, чтобы сделать поиск более контролируемым. Но проанализировав логи, я увидел, что мой агент посещал 80% сайтов, на которых содержался правильный ответ. Значит, проблема не в поиске, а в чём-то другом. ⚡Проблема: маленькая LLM еще достаточно плохо анализирует большие объёмы текста. Причем просто извлечь ...

👁 493

📊 Аналитика

Типы хуков

Нейтральный14 | 846 просм.

Вопрос2 | 473 просм.

Статистика2 | 757 просм.

Провокация1 | 691 просм.

Длина постов

Очень длинные (1000+)12 | 957 просм.

Длинные (500-1000)4 | 505 просм.

Средние (200-500)3 | 498 просм.

Влияние эмодзи

1.2K

С эмодзи (7)

556

Без эмодзи (12)

+114.0% охвата

Типы контента

📷

photo

926 просм.

📝

text

406 просм.

⚠️ 0/100

Подозрительно высокий охват

#9075

из 13,308 в Технологии