Не мог пройти мимо этой статьи, даже Леви по ней снял видео! — @newbornslv

16просмотров

5 ноября 2025 г.

📷 ФотоScore: 18

Не мог пройти мимо этой статьи, даже Леви по ней снял видео! Но впервые я увидел её в Just Links. Generating Creative Chess Puzzles Статья: ссылка Есть такой датасет и проект, Lichess Puzzler. Это датасет шахматных этюдов. Он собирался из игр на lichess.org (а какой смысл играть не там?) автоматически на базе информации из движков, и потом отфильтровывался людьми. На базе этого датасета люди из DeepMind обучили много генеративных моделей разных архитектур. Модели маленькие, всего 200M параметров, и просто предсказывают FEN. Авторегрессионные модели генерируют его слева направо, а всякие диффузии — по кусочкам. Трансформерную модель ещё и доучивают с помощью RL. Для RL используется critic-free PPO. Признаки/награды/фильтры/ были такие: 🔵Единственность решения: лучший ход по движку должен быть сильно лучше второго лучшего хода. 🔵Новизна: расстояние Левенштейна по FEN самой позиции и (предположительно) UCI основного варианта. Считается для пары задач (отдельно для позиции и отдельно для основного варианта). Другая метрика новизны — средняя потокенная энтропия. 🔵Контринтуитвность: разные метрики на базе разницы оценок на разных глубинах движка. Формализуется, например, через AUC кривой, где по оси X глубина, а по оси Y разница оценки на данной глубине с финальной оценкой. Финальная награда такая: 🟢1, если решение единственно и контринтуитвно, набор фигур меньше либо равен изначальному, и позиция проходит фильтры новизны (см. ниже). 🟡0, если позиция возможна (легальна) 🟣-2, если позиция невозможна Есть KL-регуляризация c SFT моделью. Для поддержки новизны есть реплей-буфер качественных позиций из оригинального датасета и недавно сгенерированных "хороших" примеров. Новизна считается внутри батча и между батчами, и с кусочком буфера. После генерации датасета, его отфильтровали по "эстетике", то есть по типу этюда (например, "превращения пешки не в ферзя" или "связки"), для чего сделали классификатор. Внутри каждого типа взяли наиболее контринтуитивные этюды, и так получился финальный чистый датасет. Получившийся чистый датасет: 🟡Лучше по креативности и веселее, чем книжные этюды, по оценке 8 экспертов с lichess рейтингом 2000-2400. 🟡По новизне на уровне примеров из оригинального датасета. 🟡Имеет долю контринтуитивных примеров с единственным решением = 2.5%. Против 2.1% в оригинальном датасете (и 0.2% в SFT). Кроме того, этюды отдали на рецензирование 1 IM и 2 GM. Рецензии тут. Это всё лишний раз подтверждает, что верифицируемые задачи теперь всегда будут падать жертвой машинного обучения.

Другие посты @newbornslv