Г
Грокаем книги или TL;DR
@tldrpiter1.1K подп.
472просмотров
43.7%от подписчиков
13 марта 2026 г.
📷 ФотоScore: 519
Давнееенько у нас не было обзоров книг. И тут недавно ребята из издательства Питер подогнали мне чудесную книгу по System Design «нового поколения», то есть GenAI. Книга - это попытка адаптировать классическое system design интервью под новую реальность GenAI: LLM-приложения, RAG-архитектуры, агенты, оценка качества и стоимость инференса. Полезно как структурированный чек-лист, но это скорее введение, чем глубокий инженерный разбор. Хотя как менеджер я обожаю эту серию книг, она позволяет погрузиться во множество разных тем. System Design для эпохи GenAI Все привыкли к классическим вопросам на system design интервью: - спроектируйте Twitter - спроектируйте YouTube - спроектируйте Uber Но последние пару лет компании начали задавать другой тип задач: спроектируйте AI-чат ассистента спроектируйте RAG-поиск по документам спроектируйте AI-копилота для разработчиков И вот тут многие кандидаты ломаются. Почему? Потому что классическая архитектура (API + база + кэш) внезапно превращается в: User → Gateway → Orchestrator → LLM → Retrieval → Vector DB → Tools → Evaluation И вот именно эту новую архитектуру книга и пытается разобрать. Основная идея книги Авторы говорят простую вещь: GenAI-системы - это не просто “вызов LLM API”. Это полноценная распределённая система. И в ней появляются новые архитектурные компоненты. Например. 1. Retrieval (RAG) LLM сам по себе туповат. Он знает интернет до даты обучения. Поэтому почти любая реальная система делает: Query → Embedding → Vector search → Context → LLM Книга разбирает: как хранить embeddings как масштабировать vector search как строить pipeline retrieval 2. Оркестрация моделей LLM редко работает один. Обычно это: Router → model A (cheap) → model B (smart) → tools Причина банальная. LLM дорогой. Поэтому архитектура всегда балансирует: качество vs стоимость vs latency 3. Оценка качества Самая сложная часть GenAI-систем. В классических сервисах есть метрики: latency error rate throughput А в LLM-системах появляется ад. Например: - hallucination rate - factual accuracy - grounding - response quality И это очень плохо измеряется. Книга показывает базовые подходы: LLM-as-judge human evaluation golden datasets 4. Стоимость GenAI архитектура - это экономика. Каждый запрос стоит денег. Поэтому появляются решения: кэширование ответов prompt compression routing моделей batching На интервью это любят спрашивать. Что в книге хорошо 1️⃣ Хорошая структура для интервью Если вам задают вопрос: Спроектируйте AI-ассистента книга дает простой фреймворк: User interaction Retrieval layer LLM orchestration Tools Evaluation Cost control Это полезно. 2️⃣ Понятный чек-лист архитектуры После книги начинаешь автоматически думать: где embeddings? где кэш? где evaluation? где rate limiting? 3️⃣ Актуальность Большинство книг по system design написаны до эпохи LLM. А здесь фокус именно на GenAI-архитектуре. Где книга слабая 1️⃣ Мало глубины. Например vector search объясняется очень поверхностно. Нет разбора: HNSW IVF ANN tradeoffs 2️⃣ Мало production-кейсов. Реальные системы: Copilot Perplexity ChatGPT имеют гораздо более сложные пайплайны. 3️⃣ Почти нет темы агентов А именно туда сейчас движется индустрия. Если раньше system design интервью проверяло: умеешь ли ты масштабировать сервис то теперь проверяют: умеешь ли ты проектировать AI-системы. И там появляются новые вопросы: как уменьшить hallucinations как контролировать стоимость токенов как строить RAG как оценивать качество И это новый слой архитектуры. 🔥 - если читал и зашло ❤️ - если забрал в бэклог 🦄 - если читал и не зашло
472
просмотров
3574
символов
Да
эмодзи
Да
медиа

Другие посты @tldrpiter

Все посты канала →
Давнееенько у нас не было обзоров книг. И тут недавно ребята — @tldrpiter | PostSniper