4.4Kпросмотров
25 октября 2024 г.
📷 ФотоScore: 4.8K
🎵 Как Spotify ускорил разметку данных для ML в 10 раз Spotify недавно рассказал, как они ускорили разметку данных для ML-моделей в 10 раз. Главный секрет — использование LLM в сочетании с работой аннотаторов. Модели берут на себя первичную разметку, а люди дорабатывают и проверяют сложные случаи, что дает трехкратный прирост производительности В стриминговом сервисе, который очень быстро растет, важно уметь создавать масштабируемые решения для снижения костов. Например, этот способ используется для выявления нарушений политики платформы Их стратегия разметки строится на трех столпах: ⚡️ Масштабирование человеческой экспертизы: аннотаторы проверяют и уточняют результаты, чтобы повысить точность данных.
⚡️ Инструменты для аннотации: создание эффективных инструментов, которые упрощают работу аннотаторов и позволяют быстрее интегрировать модели в процесс.
⚡️ Фундаментальная инфраструктура и интеграция: платформа разработана так, чтобы обрабатывать большие объемы данных параллельно и запускать десятки проектов одновременно. Этот подход позволил Spotify запускать десятки проектов одновременно, снизить затраты и сохранить высокую точность. Подробнее узнать об их решении можно в статье на их сайте 🎵 @notedatascience