Про использование синтетических данных Бывший главный научны — @productologi

377просмотров

4 марта 2025 г.

Score: 415

Про использование синтетических данных Бывший главный научный сотрудник OpenAI прогнозирует, что мы достигли «пика данных», а новое исследование Epoch предсказывает, что модели ИИ исчерпают доступные данные для обучения к 2028 году. В условиях нехватки реальных данных компании обращаются к синтетическим данным. Синтетические данные полезны не только для обучения ИИ-моделей — их можно использовать для улучшения продуктов так, как это было невозможно ещё несколько лет назад (например, как я писал ранее, проводить пользовательские исследования без реальных пользователей). Что такое синтетические данные? Синтетические данные — это искусственно созданная информация, имитирующая реальные данные. Интерес к этой теме стремительно растёт, что подтверждают статистики поисковых запросов в Google. Синтетические данные бывают трёх основных типов: - Табличные данные — структурированы по заданному формату, как в обычных базах данных. - Полностью синтетические данные — генерируются с нуля, повторяя свойства оригинальных данных, но без включения реальной информации. - Частично синтетические данные — смесь реальных и синтетических данных, используемая для защиты конфиденциальности. Почему синтетические данные полезны? Помимо того, что реальных данных становится меньше, у синтетических данных есть практические преимущества: Конфиденциальность Компании, работающие в условиях жёстких законов о защите данных (а в РФ эта сфера только ужесточается), могут снизить риски утечки персональных данных, используя синтетические наборы. Экономия затрат Стартап Writer утверждает, что разработка его новой модели на синтетических данных обошлась всего в $700 тыс., в то время как аналогичная модель OpenAI стоила $4,6 млн. Как работают синтетические данные? Один из популярных методов создания синтетических данных — генеративно-состязательные сети (GAN). Процесс включает две нейросети: - Генератор — создаёт синтетические данные. - Дискриминатор — отличает синтетические данные от реальных. Этот метод особенно полезен для генерации изображений, текстов и других данных, позволяя обучать модели без использования реальных пользовательских данных. Как продуктовые команды могут использовать синтетические данные? Исследование пользователей и анализ рынка Стартап Evidenza создаёт синтетические копии пользователей для проведения исследований без участия реальных людей. Synthetic Users тестирует ответы синтетических пользователей, сравнивая их с реальными интервью. Разработка функций и персонализация Spotify использует синтетические данные для обучения своих рекомендательных алгоритмов, включая AI DJ, что помогает лучше понимать предпочтения пользователей. Обнаружение мошенничества и аномалий JP Morgan применяет синтетические данные для создания тренировочных наборов, что повышает точность детекции мошеннических операций. Тестирование безопасности Tesla и Waymo используют синтетические данные для симуляции дорожных ситуаций, включая: - Различные погодные условия. - Пешеходные потоки. - Неожиданные препятствия. Оптимизация рекламы и монетизация Uber создал Ads Simulator, который моделирует поведение рекламного рынка и тестирует стратегии без риска для реальных пользователей. Улучшение ценностных предложений Grammarly обучает свои модели на 9 млн пар предложений с синтетическими ошибками, что повышает точность исправлений. Риски использования синтетических данных «Коллапс модели» Если ИИ-модели обучаются только на синтетических данных, их точность со временем снижается из-за накопления ошибок и искажений. Исследование в Nature показывает, что каждое последующее поколение синтетических данных становится менее точным. «Загрязнение интернета AI-контентом» Некоторые эксперты предупреждают, что чрезмерное использование синтетических данных приведёт к росту "AI Slop" — некачественного контента, заполняющего интернет и мешающего обучению будущих моделей.

Другие посты @productologi