16просмотров
5 ноября 2025 г.
📷 ФотоScore: 18
Не мог пройти мимо этой статьи, даже Леви по ней снял видео!
Но впервые я увидел её в Just Links. Generating Creative Chess Puzzles
Статья: ссылка Есть такой датасет и проект, Lichess Puzzler. Это датасет шахматных этюдов. Он собирался из игр на lichess.org (а какой смысл играть не там?) автоматически на базе информации из движков, и потом отфильтровывался людьми. На базе этого датасета люди из DeepMind обучили много генеративных моделей разных архитектур. Модели маленькие, всего 200M параметров, и просто предсказывают FEN. Авторегрессионные модели генерируют его слева направо, а всякие диффузии — по кусочкам. Трансформерную модель ещё и доучивают с помощью RL. Для RL используется critic-free PPO. Признаки/награды/фильтры/ были такие:
🔵Единственность решения: лучший ход по движку должен быть сильно лучше второго лучшего хода.
🔵Новизна: расстояние Левенштейна по FEN самой позиции и (предположительно) UCI основного варианта. Считается для пары задач (отдельно для позиции и отдельно для основного варианта). Другая метрика новизны — средняя потокенная энтропия.
🔵Контринтуитвность: разные метрики на базе разницы оценок на разных глубинах движка. Формализуется, например, через AUC кривой, где по оси X глубина, а по оси Y разница оценки на данной глубине с финальной оценкой. Финальная награда такая:
🟢1, если решение единственно и контринтуитвно, набор фигур меньше либо равен изначальному, и позиция проходит фильтры новизны (см. ниже).
🟡0, если позиция возможна (легальна)
🟣-2, если позиция невозможна Есть KL-регуляризация c SFT моделью. Для поддержки новизны есть реплей-буфер качественных позиций из оригинального датасета и недавно сгенерированных "хороших" примеров. Новизна считается внутри батча и между батчами, и с кусочком буфера. После генерации датасета, его отфильтровали по "эстетике", то есть по типу этюда (например, "превращения пешки не в ферзя" или "связки"), для чего сделали классификатор. Внутри каждого типа взяли наиболее контринтуитивные этюды, и так получился финальный чистый датасет. Получившийся чистый датасет:
🟡Лучше по креативности и веселее, чем книжные этюды, по оценке 8 экспертов с lichess рейтингом 2000-2400.
🟡По новизне на уровне примеров из оригинального датасета.
🟡Имеет долю контринтуитивных примеров с единственным решением = 2.5%. Против 2.1% в оригинальном датасете (и 0.2% в SFT). Кроме того, этюды отдали на рецензирование 1 IM и 2 GM. Рецензии тут. Это всё лишний раз подтверждает, что верифицируемые задачи теперь всегда будут падать жертвой машинного обучения.