311просмотров
16 февраля 2026 г.
📷 ФотоScore: 342
Как Colgate-Palmolive заменили 9 300 реальных респондентов LLM-симуляцией В прошлую субботу увидел у коллег по цеху публикации про синтетических респондентов и решил разобраться Как оказалось, полной замены людей на роботов не произошло. Компания провела 57 параллельных опросов по товарам личной гигиены: собрали 9300 ответов от реальных людей, а потом те же вопросы задали LLM. И что вы думаете? Синтетические респонденты достигли 90% от показателя надёжности повторного опроса живых людей Потом я прочитал ещё примерно 20 статей, посмотрел на чилийский кейс с 189 тысячами синтетических профилей (речь шла о моделировании социальных настроений). Узнал про существование критерия Колмогорова-Смирнова и выяснил, что разница в Top-2-Box в пределах погрешности — это норма 🙈 Подготовил огромный материал по следам своего исследования. Кто хочет минут 20 увлекательного чтения — прошу на мой сайт А здесь поговорим про метод SSR (Semantic Similarity Rating) История начинается с очевидной боли: исследования дорогие, панели истощены, а рекрутинг занимает недели. В 2023–2024 годах продуктовые команды начали активно использовать LLM для быстрых опросов: «Представь, что ты мама двоих детей из Мюнхена. Оцени нашу новую фичу по шкале 1–5» Но возникла проблема: распределения ответов были слишком гладкими. Простыми словами, когда у LLM напрямую просят оценить продукт, модель стремится быть безопасной и усреднённой (в такие моменты так и хочется «чаппалах» прописать джипитишке😂 он тебе бла бла бла, а ты такой - скидыщщщ) В октябре 2025 года исследователи из PyMC Labs и Colgate-Palmolive предложили решение - SSR. Идея простая, но гениальная: Не просить LLM сразу выдать число Попросить дать текстовый ответ, как реальный человек Сравнить этот текст с эталонными утверждениями каждой точки Likert-шкалы через контекстуальные эмбеддинги Назначить рейтинг на основе семантической близости Представляете, мне удалось во всем этом разобраться! С помощью Codex за 4 часа накидал скрипт, в котором можно регулировать количество «синтетиков» — от 10 в тестовом режиме до пакетов по 250/500/1000 профилей. Залил в GitHub:
🔗 https://github.com/aglyamodinar/synthetic-respondents-bot Кто умеет ставить задачи Codex — велком тестировать! У меня восторг от возможностей Codex. Берешь тему, ресерчишь данные, ищешь в GitHub похожие решения и, соединив все знания, просишь собрать рабочий инструмент. Чудеса, да и только!