840просмотров
27 февраля 2026 г.
📷 ФотоScore: 924
Как тюнингуют AI под реальные рабочие нагрузки.
Инференс – вызов модели для получения предсказания/ответа на заданные условия. 1. Prompt engineering.
Самый частый подход, где мы передаем AI модели инструкции и контекст. 2. Динамический контекст.
AI модель обучена на общих данных, но бизнес-задачи требуют использования ваших актуальных данных.
Перед инференсом мы подготавливаем контекст, например делая запросы к нашей БД.
Затем используем обычный prompt engineering с подготовленным контекстом. 3. RAG (Retrieval Augmented Generation).
Иногда подготовить контекст для инференса без участия AI проблематично. Например мы получаем запрос пользователя в свободном формате и хотим найти подходящие под него данные.
Инструменты полнотекстового поиска (ElasticSearch) здесь могут помочь, но качество такого поиска не самое лучшее. Здесь нам может помочь AI
– используем AI для получения числового представления текста в виде вектора (embeddings)
– сохраняем данные для контекста и полученный ранее вектор в векторной БД
– выполняем запрос по векторной близости по БД без участия AI
– найденный контекст помещаем в промпт для инференса 4. Вызов функций.
Размер промпта ограничен. Когда контекст достаточно большой, мы уже не можем использовать предыдущие подходы.
При инференсе мы можем передавать не полный контекст а список доступных функций. AI в результате говорит нам, какую функцию необходимо вызвать для получения нужных данных.
То есть мы выступаем в роли роутера для AI модели. 5. MCP.
Быть роутером становится затратным, если алгоритм инференса усложняется.
API систем провайдеров информации могут регистрироваться в AI модели как MCP серверы.
Когда мы выполняем инференс, модель сама (через свои внутренние инструменты) делает запросы по MCP интерфейсу для получения нужных ей данных и выполняет инференс.
Например MCP сервер Gmail – мы запрашиваем модель найти письма от бывших коллег, модель делает запросы к Gmail для получения списка писем и ищет по ним нужные. 6. AI агенты.
Сложные бизнес процессы обрабатываются BPM движками (Camunda). Но когда алгоритм перехода между состояниями формально не определен, BPM движки не могут помочь и тут нам на помощь приходит AI.
AI управляет выполнением бизнес процесса, каждый шаг процесса может быть выполнен другой моделью – это называется AI агент. В России любят AI агентами называть ассистентов. Кажется, Сбер зародил эту путаницу.
AI ассистент – это просто модель с контекстом (тот же ChatGPT). Этот пост не является полным справочником, скорее упрощенный гайд.