🤩 “Modular Manifolds” — новое исследование Thinking Machine — @youngest_mind

589просмотров

29 сентября 2025 г.

📷 ФотоScore: 648

🤩 “Modular Manifolds” — новое исследование Thinking Machines, которое пытается приручить хаос в нейросетях Thinking Machines (лаборатория Миры Мурати) выпустила свежий блог-пост — «Modular Manifolds». Там говорят о том, как сделать обучение больших нейросетей стабильнее, чтобы веса, градиенты и активации не прыгали как обезьяны на дрожжах. Что предлагают — Каждому слою сети можно назначить “многообразие” (manifold) — то есть пространство, внутри которого веса должны “жить”. Например, слой, который почти не “растягивает” сигнал, может быть ограничен матрицами со строгими условиями (напр., ортонормированными строками/столбцами). — При обновлении весов сначала градиент проецируется в касательное пространство многообразия — чтобы изменения не выкидывали матрицу за рамки заданного “хорошего” поведения. Потом выполняется корректировка (ретракция), чтобы всё снова было в рамках многообразия. — Вводят “modular manifolds” — абстракцию, которая помогает координировать, как разные слои сети обновляются, как задаётся “бюджет” обучения слоям, исходя из их чувствительности (насколько вес влияет на выход модели). Примеры на пальцах (как я люблю⌨️) Представь, что у тебя есть transformer-модель с несколькими слоями. Один слой — матрица, которая умножает, скажем, embeddings. Ты хочешь, чтобы этот слой не “перегибал палку” — не растягивал сигналы так, что при малейшей погрешности всё улетает. С Modular Manifolds ты заставляешь его “оставаться аккуратным”: он обновляет веса не произвольно, а так, чтобы оставаться в “хорошем пространстве”; если шаг обучения “съехал”, ретракт его обратно; и ещё, оцениваешь: какой слой может делать “шаги” сильнее, а какой — только мини-коррекции, чтобы сеть не развалилась. 😭 Что пока не решено — Сколько вычислительных ресурсов потребуется, чтобы всё это на практике запустить на гигантских моделях. — Насколько хорошо всё будет сходиться, особенно при низкой точности (float16) и в дистиллированных / компрессированных сетях. — Как выбрать правильное многообразие для разных типов слоёв (свёртки, attention, плотные), чтобы не усложнять настройку сильнее, чем она уже есть.

Другие посты @youngest_mind