377просмотров
4 марта 2025 г.
Score: 415
Про использование синтетических данных Бывший главный научный сотрудник OpenAI прогнозирует, что мы достигли «пика данных», а новое исследование Epoch предсказывает, что модели ИИ исчерпают доступные данные для обучения к 2028 году. В условиях нехватки реальных данных компании обращаются к синтетическим данным. Синтетические данные полезны не только для обучения ИИ-моделей — их можно использовать для улучшения продуктов так, как это было невозможно ещё несколько лет назад (например, как я писал ранее, проводить пользовательские исследования без реальных пользователей). Что такое синтетические данные? Синтетические данные — это искусственно созданная информация, имитирующая реальные данные. Интерес к этой теме стремительно растёт, что подтверждают статистики поисковых запросов в Google. Синтетические данные бывают трёх основных типов:
- Табличные данные — структурированы по заданному формату, как в обычных базах данных.
- Полностью синтетические данные — генерируются с нуля, повторяя свойства оригинальных данных, но без включения реальной информации.
- Частично синтетические данные — смесь реальных и синтетических данных, используемая для защиты конфиденциальности. Почему синтетические данные полезны?
Помимо того, что реальных данных становится меньше, у синтетических данных есть практические преимущества: Конфиденциальность
Компании, работающие в условиях жёстких законов о защите данных (а в РФ эта сфера только ужесточается), могут снизить риски утечки персональных данных, используя синтетические наборы. Экономия затрат
Стартап Writer утверждает, что разработка его новой модели на синтетических данных обошлась всего в $700 тыс., в то время как аналогичная модель OpenAI стоила $4,6 млн. Как работают синтетические данные?
Один из популярных методов создания синтетических данных — генеративно-состязательные сети (GAN).
Процесс включает две нейросети:
- Генератор — создаёт синтетические данные.
- Дискриминатор — отличает синтетические данные от реальных.
Этот метод особенно полезен для генерации изображений, текстов и других данных, позволяя обучать модели без использования реальных пользовательских данных. Как продуктовые команды могут использовать синтетические данные? Исследование пользователей и анализ рынка
Стартап Evidenza создаёт синтетические копии пользователей для проведения исследований без участия реальных людей.
Synthetic Users тестирует ответы синтетических пользователей, сравнивая их с реальными интервью. Разработка функций и персонализация
Spotify использует синтетические данные для обучения своих рекомендательных алгоритмов, включая AI DJ, что помогает лучше понимать предпочтения пользователей. Обнаружение мошенничества и аномалий
JP Morgan применяет синтетические данные для создания тренировочных наборов, что повышает точность детекции мошеннических операций. Тестирование безопасности
Tesla и Waymo используют синтетические данные для симуляции дорожных ситуаций, включая:
- Различные погодные условия.
- Пешеходные потоки.
- Неожиданные препятствия. Оптимизация рекламы и монетизация
Uber создал Ads Simulator, который моделирует поведение рекламного рынка и тестирует стратегии без риска для реальных пользователей. Улучшение ценностных предложений
Grammarly обучает свои модели на 9 млн пар предложений с синтетическими ошибками, что повышает точность исправлений. Риски использования синтетических данных
«Коллапс модели» Если ИИ-модели обучаются только на синтетических данных, их точность со временем снижается из-за накопления ошибок и искажений. Исследование в Nature показывает, что каждое последующее поколение синтетических данных становится менее точным. «Загрязнение интернета AI-контентом» Некоторые эксперты предупреждают, что чрезмерное использование синтетических данных приведёт к росту "AI Slop" — некачественного контента, заполняющего интернет и мешающего обучению будущих моделей.