456просмотров
73.4%от подписчиков
10 марта 2026 г.
📷 ФотоScore: 502
Всем привет!
Возможно, кто-то ещё не знает, но мы с командой разрабатываем инструмент для генерации тест-кейсов и анализа документации TestWriter.
Один из ключевых моментов, на который мы обращаем особое внимание при работе с ИИ, — это управление токенами в запросе.
Почему это важно?
Любая модель (например модели от OpenAI или Anthropic) работает с ограниченным контекстным окном. В него входят:
- системный промпт
- правила и инструкции
- шаблоны
- дополнительные слои логики
- пользовательский текст
- и, конечно, будущий ответ модели
Все это вместе и формирует общий бюджет токенов.
Если большая часть токенов уходит на инструкции, шаблоны и документацию, то на сам ответ модели остаётся меньше пространства. В результате:
- ответ может стать короче
- модель может потерять часть контекста
- увеличивается стоимость запроса
- падает стабильность генерации
Поэтому при разработке TestWriter мы сделали отдельную аналитику по токенам. Она показывает:
- сколько токенов занимает системный промпт
- сколько — правила
- сколько — шаблоны и слои
- сколько — пользовательский контент
И главное — сколько токенов остаётся на генерацию ответа.
Это помогает оптимизировать промпты, уменьшать шум в контексте и получать более точные результаты от ИИ.
На скриншоте как раз пример такой аналитики — видно, как распределяются токены внутри запроса. Хорошие статьи на эту тему
- Статья от OpenAI — Prompt Engineering Guide / Token usage
- Исследования по context window optimization у Anthropic
- Практики prompt compression и context pruning для LLM