Как тюнингуют AI под реальные рабочие нагрузки. Инференс – в — @laptev_architecture

840просмотров

27 февраля 2026 г.

📷 ФотоScore: 924

Как тюнингуют AI под реальные рабочие нагрузки. Инференс – вызов модели для получения предсказания/ответа на заданные условия. 1. Prompt engineering. Самый частый подход, где мы передаем AI модели инструкции и контекст. 2. Динамический контекст. AI модель обучена на общих данных, но бизнес-задачи требуют использования ваших актуальных данных. Перед инференсом мы подготавливаем контекст, например делая запросы к нашей БД. Затем используем обычный prompt engineering с подготовленным контекстом. 3. RAG (Retrieval Augmented Generation). Иногда подготовить контекст для инференса без участия AI проблематично. Например мы получаем запрос пользователя в свободном формате и хотим найти подходящие под него данные. Инструменты полнотекстового поиска (ElasticSearch) здесь могут помочь, но качество такого поиска не самое лучшее. Здесь нам может помочь AI – используем AI для получения числового представления текста в виде вектора (embeddings) – сохраняем данные для контекста и полученный ранее вектор в векторной БД – выполняем запрос по векторной близости по БД без участия AI – найденный контекст помещаем в промпт для инференса 4. Вызов функций. Размер промпта ограничен. Когда контекст достаточно большой, мы уже не можем использовать предыдущие подходы. При инференсе мы можем передавать не полный контекст а список доступных функций. AI в результате говорит нам, какую функцию необходимо вызвать для получения нужных данных. То есть мы выступаем в роли роутера для AI модели. 5. MCP. Быть роутером становится затратным, если алгоритм инференса усложняется. API систем провайдеров информации могут регистрироваться в AI модели как MCP серверы. Когда мы выполняем инференс, модель сама (через свои внутренние инструменты) делает запросы по MCP интерфейсу для получения нужных ей данных и выполняет инференс. Например MCP сервер Gmail – мы запрашиваем модель найти письма от бывших коллег, модель делает запросы к Gmail для получения списка писем и ищет по ним нужные. 6. AI агенты. Сложные бизнес процессы обрабатываются BPM движками (Camunda). Но когда алгоритм перехода между состояниями формально не определен, BPM движки не могут помочь и тут нам на помощь приходит AI. AI управляет выполнением бизнес процесса, каждый шаг процесса может быть выполнен другой моделью – это называется AI агент. В России любят AI агентами называть ассистентов. Кажется, Сбер зародил эту путаницу. AI ассистент – это просто модель с контекстом (тот же ChatGPT). Этот пост не является полным справочником, скорее упрощенный гайд.

Другие посты @laptev_architecture