Креативнее нас. Но всегда одинаково Сто тысяч человек против — @tokensaway

2.9Kпросмотров

96.4%от подписчиков

22 февраля 2026 г.

📷 ФотоScore: 3.2K

Креативнее нас. Но всегда одинаково Сто тысяч человек против девяти языковых моделей. Крупнейший в истории эксперимент по измерению креативности. Университет Монреаля, в команде — Йошуа Бенжио, один из отцов глубокого обучения. Задание: назовите десять слов, максимально далёких друг от друга по смыслу. Чем дальше слова в семантическом пространстве, тем выше балл. Тест называется DAT — используется в психологии для измерения дивергентного мышления. Результат: GPT-4 с выкрученной температурой превзошёл 72% участников. Заголовки написали себя сами. «ИИ креативнее людей». Конец эпохи. А теперь то, что в заголовки не попало. GPT-4 в семидесяти процентах ответов использовал слово «микроскоп». В шестидесяти — «слон». GPT-4-turbo ещё хуже: «океан» — более чем в девяноста процентах. У людей самое частое слово — «машина». В 1.4% ответов. Модель набирает высокий балл за разнообразие — и при этом повторяется в семьдесят раз чаще, чем человек. Каждый отдельный ответ выглядит разнообразным. Тысяча ответов вместе — один и тот же «микроскоп, слон, океан» в слегка разных обёртках. У Пелевина в «Затворнике и Шестипалом» есть бройлерный комбинат. Тысячи цыплят — одинаковых, откормленных по расписанию, идеальных по метрике. Каждый в отдельности — качественный продукт. Все вместе — один и тот же цыплёнок, размноженный до бесконечности. LLM на тесте креативности — тот же конвейер. Фабрика разнообразия, которая производит одинаковое. А верхние десять процентов участников обогнали любую модель с любыми настройками. С огромным отрывом. Особенно в поэзии. Шестипалые — те, кого конвейер не может воспроизвести. Не потому что лучше оптимизируют метрику, а потому что они другие. Лишний палец не помещается ни в один бенчмарк. Оговорка: тестировали GPT-4, Gemini Pro 1.5, Llama 3, Claude — модели прошлого поколения. Фронтир с тех пор ушёл далеко. Но сам паттерн не устареет. Модель оптимизирует метрику — находит максимум и эксплуатирует его. Это свойство конвейера, а не конкретной версии. Ещё одна находка, которая кажется мне важнее остальных. Креативность модели полностью зависит от промпта. Попросили думать через этимологию — балл вырос. По сути, креативность модели — это ваша креативность. Не её. Мы хвалим зеркало за красивое отражение. Затворник в повести — единственный на фабрике, кто понимает, что конвейер существует. Модель не знает, что она на конвейере. Не видит, что «микроскоп» — не творческий выбор, а аттрактор в пространстве весов. Что высокий балл — не креативность, а оптимизация. Сто тысяч человек. Девять моделей. И в конце — тот же вопрос: что мы измеряем, когда измеряем креативность? Качество продукта на выходе конвейера — или способность с конвейера сойти? От себя: попросил Claude придумать десять далёких слов. Красивый список. Попросил ещё раз — четыре совпали. Ещё раз — три. Попросил себя — ни одного повторения за пять попыток. Зато мой список хуже по баллам. Модель выигрывает тест. Человек не может его выиграть одинаково дважды. Возможно, именно это — а не балл — и есть шестой палец.

Другие посты @tokensaway