3. Наше любимое - галюны. Модель начинает путаться. Когда в — @itpolice

955просмотров

3 декабря 2025 г.

statsScore: 1.1K

3. Наше любимое - галюны. Модель начинает путаться. Когда в контексте появляется длинная цепь: - system - user - assistant toolcall - tool response - assistant follow-up - еще один toolcall - еще один ответ - ... Модель перестает точно понимать, в каком «режиме» она сейчас работает: генерирует ли она текст пользователю, вызывает ли инструмент или принимает входные данные инструмента. Ошибки, когда модель начинает смешивать текст и JSON, и прочее, появляются именно из-за «распухшего» контекста. В итоге результат или ниже ожидаемого, или его нет. Вывод: официальные клиенты работают слишком расточительно, особенно если MCP-инструменты вызываются каскадно. Этот подход удобен для конечного пользователя (в «Desktop»), но неприменим для высоконагруженных или оптимизированных серверных систем. Сойдет для вайбкодеров, иначе говоря, но не для настоящих проектов. Что предлагаю я: 1. Вспоминать, как прогали деды, выжимая максимум из каждого килобайта и доступного железа. 2. Не пользоваться готовыми решениями от всяких OpenAI, сколько бы вам не рассказывали, что это "стандарт", а делать хардкор самим. 3. Запомнить требования к системе нормального человека: - предсказуемое поведение - малые токены - строгая детерминированность - минимальные задержки - простая отладка. В своих проектах я эти требования чту, как священные писания, поэтому расход токенов в них может рассмешить, а результат легко прогнозировать. Главное, контролировать логику и изолировать LLM от лишних данных. Например: 1. Дали модели описание инструментов. 2. Получили только один JSON от модели: {"tool": "...", "args": {...}} 3. Вызвали инструмент без LLM. 4. Вернули пользователю или обработали, построили следующую итерацию... 4.1 Если нужно, сделали еще один запрос модели, но уже минимальный и чистый. Да, это уже не MCP архитектура, а функциональные вызовы, но в этом и есть преимущество. Вы не переусложняете процесс, контролируете его, повышаете шанс корректной работы даже слабеньких моделей, и не надеетесь на разработчиков OpenAI. Ну и на токенах экономите, в конце концов.

Другие посты @itpolice