Есть интересный концепт про проверку вашей LLM на самостояте — @itdidgest

6.9Kпросмотров

13.9%от подписчиков

19 февраля 2026 г.

Score: 7.6K

Есть интересный концепт про проверку вашей LLM на самостоятельность - Solving a Million-Step LLM Task with Zero Errors Главная проблема современных языковых моделей (LLM) — «накопление ошибок». Если задача требует 1000 последовательных шагов и на каждом шаге вероятность ошибки всего 1%, то вероятность успешного завершения всей цепочки стремится к нулю. Авторы представили систему MAKER, которая смогла выполнить задачу, состоящую из более чем 1 000 000 (миллиона!) шагов, не допустив ни одной ошибки. За счет чего это работает? 🔹 Микроагенты: Задачу дробят на атомарные части, где ошибиться практически невозможно. 🔹 Массовое голосование: Каждый чих нейронки проверяется другими агентами в реальном времени. Если один «галлюцинирует», остальные его поправляют. 🔹 MDAP: Вместо монолитного ИИ используется распределенная сеть процессов (Massively Decomposed Agentic Processes). Почему это важно? Это доказывает, что для решения сверхсложных задач (уровня целых корпораций или научных открытий) нам не обязательно ждать GPT-6. Мы можем строить сверхнадежные системы уже сейчас, просто правильно организуя работу существующих моделей. Как раз gastown это пример такой системы, которая разбивает вашу задачу на подзадачи и справляется с MAKER проблемой. Мой пост набрал много «кринж», и тут интересно. То есть много людей очень относятся скептично к идеи AI для разработки. Оно понятно, модели не могут дни недели посчитать или кол-во быка R в слове клубника. Но на самом деле проблема в другом. Многие не хотят учиться (не обязательно вы), я в целом про коллег. И не обязательно про AI, можно так сказать про git, CLI, docker и другие вещи. Это называется growth mindset. Ваша задача все время учиться, пусть и в ущерб личным развлечениям и семейным делам. Вы либо все время качаете навыки и развиваетесь, либо в какой-то момент«давай до свидания». Я всегда открыт к новому и всегда все пробую, что может повлиять на мою работу, что позволяет быть «в форме». Например на собеседовании вас обязательно спросят про AI use cases, а вы такой им про gastown разложите…шах и мат IT Дайджест с Новиковым

Другие посты @itdidgest