Как сделать AI-фокус-группу, которая отвечает на 90% так же, — @growthmrkt

2.1Kпросмотров

83.2%от подписчиков

21 октября 2025 г.

Score: 2.3K

Как сделать AI-фокус-группу, которая отвечает на 90% так же, как живые люди (рисерч с панелью из 9300 человек). ☠️ АЛЕРТ: этот пост местами очень душный, 10/10. При этом потенциальная польза тоже на 10/10. В любом случае, откройте форточку.. Ссылка на рисерч (фул пдф в первом комменте) ✍️ TLDR Консенсус в индустрии: если с помощью AI имитировать интервью с целью выявить purchase intent - точность будет никакой. Однако, если использовать правильную технику опроса - AI отвечает на 90% так же, как живые люди. 🔍 Подробнее об исследовании GPT-4o и Gemini-2.0-flash тестировали на 57 концептах продуктов личной гигиены (зубные пасты, гели для душа, уход за кожей) с 9300 реальными участниками (150-400 человек на концепт). Результаты: ➢ Если задавать дефолтный вопрос "оцени по шкале от 1 до 5..." (метод Direct Likert Rating) → результат так себе. Модели застревают на "безопасном" ответе "3", почти никогда не выбирают крайние значения 1 и 5 (корреляция 81%, сходство распределений 0.26). ➢ Если просить AI дать текстовое описание, а потом перевести его в цифру (один AI пишет текст, потом другой AI переводит в 1-5) → результат лучше (но распределение всё ещё слишком узкое, корреляция 85%, сходство 0.72) ➢ Но если использовать метод Semantic Similarity Rating (SSR) → получается очень хорошо (корреляция 90%, сходство 0.88) Де-факто, SSR достигает 90% от повторяемости ответов людей — это предел точности, выше которого подняться невозможно из-за шума в человеческих ответах. 🧠 Почему так и как работает SSR Когда AI просят "оцени по шкале от 1 до X", модель работает в режиме "пытаюсь угадать правильный ответ" и скатывается к центру шкалы. Это не баг,а фича того, как работают LLM. Метод SSR обходит проблему через 3 шага: ➢ AI пишет естественный текст: "Цена кажется справедливой, продукт удобный, возможно куплю если будут хорошие отзывы" ➢ Смысл текста кодируется в набор чисел - тексты с похожим смыслом получают близкие "координаты" ➢ Эти координаты сравниваются с координатами 5 эталонных фраз ("точно нет" → "точно да"). Чем ближе по смыслу к "точно да" — тем выше вероятность оценки 5 ‼️ Критическое условие работоспособности ➢ Обязательно нужна инфа о демографии юзеров. Без возраста, дохода, локации точность воспроизведения падает с 92% до 50%. ➢ Работает только для доменов с богатыми обучающими данными (B2C, B2B SaaS). Для ультра-нишевого B2B метод не валиден (AI не знает специфику рынка). 🤸‍♂️ Как это все использовать Строим цифровых двойников наших идеальных клиентов, чтобы тестить лендинги, письма, ценообразование, позиционирование и т.д. Слабые варики отсеиваем через AI-панели, выживших все таки стоит показать обычным людям.. Для реализации нужны скилы вайб кодинга маркетинга. Я бы делал все в курсоре / claude code: ➢ Собираем в папочку как можно больше данных о наших юзерах / клиентах: интервью, касдевы, записи звонков, отзывы, все что есть в CRM и т.д. ➢ Извлекаем поведенческие паттерны. Промптируем, чтобы выжать из данных: что мотивирует клиентов, что триггерит покупку, что останавливает, какие возражения типичны, какой эмоциональный контекст и т.д. ➢ Создаем AI-панель. Для каждого представителя нашей аудитории создаём AI-двойника с точной демографией + поведенческими паттернами ("Ты женщина 42 года, доход выше среднего, живёшь в крупном городе, вот твои поведенческие паттерны") ➢ Задаём вопрос про наш продукт, получаем текстовый ответ. ➢ Дальше, нужно написать Python скрипт, который проведет SSR-оценку ответов AI-двойников. Исследователи выложили свой код на Github, вы легко адаптируете его под свой кейс. Ну или всегда можно попросить более технически подготовленных коллег помочь. Ставьте 🌚 если просите совет только у AI и 🫡 если пока еще верите живым людям..

Другие посты @growthmrkt