S
System Design & Highload (Alexey Rybak)
@rybakalexey9.0K подп.
5.0Kпросмотров
55.0%от подписчиков
22 февраля 2026 г.
Score: 5.4K
Птичий язык LLM, LLM на пальцах, и снова немного про будущее программистов. Если вдруг вы жутко раздражаетесь, читая посты о генеративном программировании, то вот вам база, которая расставит многое по местам. Если вы знаете, что - генерация ответа состоит из одного батчевого и много последовательных проходов - токен это какая-то часть текста, но входной и выходной токен имеет разный вес - модель составляет текст ответа по одному токену, и чем больше токенов, тем больше цена - контекстное окно — это словно оперативная память сети - длинный контекст не обязательно улучшает ответ То можете дальше не читать, вы большой молодец, и вам этот ликбез не нужен. Идите сразу в пункт номер 5 про будущее программистов, и давайте спорить. А для всех остальных — база LLM. 1. Токены и токенизация. Модель не работает с текстом как со словами. Она разбивает текст на кусочки, которые называются токены. Разбивает, если по-простому, хрен пойми как, это сейчас непринципиально. Ей пофигу словообразование в нашем смысле корней и приставок. Токен - это кусочек текста, обычно несколько символов. Токенизация-превращение текста в список токенов. 2. Инференс — генерация ответа. Модель обучена на предсказании одного токена по массиву других. На вход подаем массив токенов, на выходе один другой. И поэтому модель генерит ответ в два этапа: сначала на вход подается токенизированный (превращенный во входные токены) текст, а затем, по одному, генерятся токены ответа. Это очень дорогая операция в отличие от обработки входного текста, поэтому входные и выходные токены имеют принципиально разные веса и стоимость, есть вы используете модель с оплатой за токены. Есть прикольные методы оптимизации типа speculative decoding (использование дешевой модели + батчевая проверка дорогой), медузо-головые решения предсказываются сразу несколько токенов и подобные. 3. Итак, модель генерирует ответ по одному токену. Как она знает, что пора остановится? Каждый последующий токен подается на вход вместе с предыдущими, а на выходе может сгенерится EOS (End Of Sequence), тогда генерация остановится. А ещё может сработать лимит числа токенов. У конечных продуктов сценарии генерации может быть очень сложный, но вот низкоуровнево LLM работает именно так: модель сама решает, когда конец. 4. Контекстное окно — максимум токенов, которые модель может держать “в памяти” в одном запросе. В контекст попадает вообще всё: вопрос, инструкции, история диалога, вставленные документы, уже написанная часть ответа. Когда модели “меряются” контекстным окном, это вот они меряются тем, на какой объем дискуссии они вообще способны. Не попали в окно - всё, модель не работает. Но большое окно не обязательно необходимо, это скорее возможность. И есть проблемы. Чем больше текста, тем сложнее выделить главное, начинается галюцинация (неверные ответы). Ну и в агентской модели ты платишь за токены, а много токенов приводит к большой цене ответа. 5. Вопрос важнее, чем ответ. Кажется, это Карл Ясперс. Квинтэссенция философского поиска (вопрос первичен, поскольку стимулирует мышление). Моя любимая философская фраза заиграла с LLM новыми красками. Сейчас стали появляться публикации о том, что стоимость использования моделей в ряде случаев начинает превышать стоимость работы человека. Не знаю, что это: недокрученная формула тарификации или фундаментальное ограничение, но пока это лишь подтверждает моё видение: программист никуда не денется, они становятся T-shape архитектором и оркестратором, контролером снижения размерности, продакт-аналитиком (наконец-то) и спек-мастером, и даже devops как будто возвращается к своим корням (культура, а не роль). И недавний кейс Алекса Крола, в котором он с LLM искал проблему превышения лимитов хостера — этому прекрасное подтверждение. В завершение прекрасные статьи, которые стоит читать программистам, если хотите разобраться с LLM 🤩 Ключевые понятия LLM 🤩 Про длинный контекст 🤩 Про “миллион токенов” 🤩 Токенизация Byte-Pair Encoding —— обучение: системный д
5.0K
просмотров
4000
символов
Да
эмодзи
Нет
медиа

Другие посты @rybakalexey

Все посты канала →