/Можно ли использовать галлюцинации с пользой? Разбираемся/ — @mashin_learning_tv

1.1Kпросмотров

92.3%от подписчиков

22 мая 2025 г.

question📷 ФотоScore: 1.2K

/Можно ли использовать галлюцинации с пользой? Разбираемся/ Мои коллеги разработали новый метод - 🔍Through the Looking Glass (TLG) - который позволяет детектить странные картинки. Пингвины, собирающие бананы? Воробей, солирующий на рок-концерте? Снеговик в пустыне? Или тень от кошки, которая вдруг стала собачьей? Все это кажется нам странным, хотя каждая часть по отдельности выглядит нормально. Мы, люди, улавливаем эту странность почти мгновенно. Почему? Потому что мозг сочетает зрительное восприятие с common sense — знанием о мире, его логике и правилах. TLG делает то же самое немного иначе: сочетает большие LVLM модели (мультимодальные модели, работающие с текстом и картинками) с легковесным attention-классификатором, чтобы уловить внутренние противоречия в изображении. Как это работает: Интуитивно: Когда изображение противоречит здравому смыслу, модель начинает "галлюцинировать" и выдает противоречивые факты. Остается лишь измерить согласованность этих фактов — если они противоречат друг другу, скорее всего, изображение не имеет смысла. Технически: Шаг 1⃣: LVLM + Diverse Beam Search → генерируем много текстовых описаний (фактов) по картинке Шаг2⃣: Attention-poling классификатор: 🔷кодируем факты 🔷применяем average pooling для каждого 🔷присваиваем внимание (attention) каждому факту 🔷объединяем взвешенные вектора в один 🔷классифицируем изображение как "нормальное" или "странное" Чем работа хороша? 🔺Достигает наилучших результатов на датасете WHOOPS! (204 картинки) на открытых моделях, превосходя clip-based, open llm-based, linear probing решения 🔺Превосходит GPT 4o на новом бенчмарке WEIRD, который сделали ребята и описали методологию создания (824 картинки) 🔺 Сам классификатор весьма легковесный (8B параметров) 📄 Статья 💻 GitHub Если статья или картинки понравились — поддержите ребят в Daily Papers ❤️ #nlp

Другие посты @mashin_learning_tv