1.3Kпросмотров
17 февраля 2026 г.
statsScore: 1.4K
3 инженера, 1 млн строк кода, 0 строк руками (кейс от OpenAI) OpenAI недавно выложили кейс: команда из 3 инженеров за 5 месяцев выпустила внутренний продукт. 1 млн строк кода, 1500 PR. весь код писал Codex — люди не написали ни строки вручную. инженеры занимались другим — строили harness: среду, в которой агент может работать эффективно что входит в harness:
• AGENTS.md на 100 строк как навигация, не энциклопедия проекта
• линтеры и CI валидируют архитектуру автоматически
• observability-стек доступен агенту: логи, метрики, скриншоты
• агенты ревьюят код вместо людей другой исследователь, Can Boluk, также показал это на цифрах. он взял одну и ту же модель и поменял только способы, которым ставятся задачи, передается контекст. в результате метрики качества выросли с 6.7% до 68.3% я часто встречаю, как разработчики винят llm, когда она «тупит». а проблема часто в том, как ты с ней общаешься — как даёшь задачу, в каком формате, какие ограничения ставишь. для это как раз и строится сейчас активно инфраструктура — это и называют harness что из этого следует:
• документация для агента должна быть короткой картой, а не свалкой из конкурирующих правил
• ограничения лучше зашивать в автоматические проверки, а не объяснять словами
• как ты даёшь задачу агенту влияет на результат не меньше, чем на какой модели работает агент