😈LLM Council: сладость или гадость? Всем привет! Сегодня не — @farren_ingenior

259просмотров

25 ноября 2025 г.

question📷 ФотоScore: 285

😈LLM Council: сладость или гадость? Всем привет! Сегодня не про Космос) Вчера наткнулся на репозиторий культовой личности в ИИ - Andrej Karpathy (ex Tesla, ex OpenAI). Андрей предлагает попробовать протестировать идею ИИ-совета (LLM Council). ❓ Как это работает? Весь процесс можно разделить на 3 этапа: 🔸Отправляем наш запрос в n моделей, выбранные в совет, и получаем от каждой из них "изолированный" ответ. 🔸Берем ответ каждой из моделей и просим оставшиеся n-1 модели его критически оценить, формируя независимый рейтинг. 🔸Направляем "изолированные" ответы каждой из моделей, а также перекрестные оценки - модели "председателю", получая финальное заключение совета. 🖥 Что получилось? Я конечно же сразу развернул данный сервис локально и протестировал эффективность. Результат меня не впечатлил от слова совсем. Модель председатель тянула одеяло на себя. Финальный вывод оказался чрезвычайно "пристрастным" и очень сильно напомнил мне "человеческие пороки". Выбранный мною председатель Gemini 3 Pro пренебрег независимым рейтингом моделей и посчитал его ответ "правильнее" всех остальных. Кажется, что нам "кожаным мешкам" пока не стоит сильно волноваться конкуренции в эпистемологии. Эпистемоло́гия (от др.-греч. ἐπιστήμη «научное знание, наука», «достоверное знание» + λόγος «слово», «речь») — философско-методологическая дисциплина, исследующая знание как таковое, его строение, структуру, функционирование и развитие. Следом мне в голову пришел философский вопрос "А способен ли ИИ вообще к качественной критике друг друга"? Есть ощущение, что в текущем состоянии - нет: 🔹Все модели учились на одном и том же "сухом" контексте, зачастую вырванном из контекста жизненных ситуаций. 🔹LLM не обладают никаким экзистенциальным опытом. Как ты вообще можешь кого-то нормально критиковать если жизни не видел? 🔹Некоторые модели обучены с использованием синтетических данных или других моделями (привет DeepSeek!) Родня получается? 👨‍🔬Какие будут предложения? ▫️Самое простое: не давать председателю оценивать себя. ▫️Попытаться сформировать у моделей "симуляцию" жизненного опыта. ▫️Тюнить модели в тандеме с оппонентами по "совету". Кстати по цене получается совсем не дешево. Я использовал 4 флагманских модели: ChatGPT 5.1, Gemini 3 Pro, Claude 4.5 и Grok 4. Каждое из рассуждение обходилось мне в среднем в 0.25$

Другие посты @farren_ingenior