A
Air ~ AI
@realtimeforai1.0K подп.
1.3Kпросмотров
7 января 2026 г.
Score: 1.4K
No Evals, No Launch - нет оценки, нет запуска Считается, что качественный Eval могут делать только люди, это дорого, но оправдано. Например в e-commerce сотрудники вручную сверяют и оценивают качество рекомендаций, сгенерированные ИИ *Тот же Amazon за счет грамотных рекомендаций увеличил средний чек на 30% Сотрудники Walmart Global Tech нашли способ масштабировать оценку, убрав из этого процесса человека В прошлом месяце они опубликовали исследование ScalingEval, доказывающее, что оценивать работу ИИ можно силами самого ИИ без потери качества. Они создали «совет» из 36 нейросетей, которые проверяют друг друга. Процесс похож на судебное разбирательство : 1. Сбор улик. ИИ-агенты анализируют пару товаров. Один ищет аргументы «за» (подходит ли функционал), другой — «против» (нет ли конфликта брендов) 2. Голосование присяжных. Собранные факты передаются на рассмотрение 36 различным языковым моделям 3. Вердикт. Если большинство моделей (больше 21) голосует «за», рекомендация признается качественной Три модели, которые справляются лучше: Gemini 1.5 Pro лучше всех находит сложные, неочевидные связи 3.5 Sonnet максимально осторожен (узнаем стиль Claude). Если не уверен на 100%, то скорее откажет, чем ошибется GPT-4o лучший баланс между скоростью и качеством для массовых проверок 🔺Но есть нюанс, автоматический Eval справляется хорошо там, где жесткие критерии, например электроника или автозапчасти Спорить модели начинают на этапе оценки моды или еды. В этих субъективных сферах человеческий контроль всё ещё необходим 💡Главный вывод: В большинстве задач ИИ уже в состоянии проверить сам себя —— У многих может возникнуть вопрос, а почему такие архаичные модели в новом исследовании. Это чисто из экономической целесообразности. Крупный бизнес крайне чувствителен к расходам на больших объемах и балансирует межу ценой и качеством, выбирая рабочих лошадок для промышленных масштабов
1.3K
просмотров
1918
символов
Нет
эмодзи
Нет
медиа

Другие посты @realtimeforai

Все посты канала →
No Evals, No Launch - нет оценки, нет запуска Считается, что — @realtimeforai | PostSniper