Л
Лёха ведет дневник
@alexs_journal1.1K подп.
3.1Kпросмотров
4 августа 2025 г.
🎬 ВидеоScore: 3.4K
💙 NeuralOS: или ИИ становится операционной системой Представь: вместо привычного Windows или macOS ты работаешь с операционкой, которая полностью генерируется нейросетью. Звучит как "немного не правдоподобно"? Исследователи из University of Waterloo уже сделали первый шаг. Как работает это чудо? NeuralOS — это не просто очередная модель, а попытка "переосмыслить" саму концепцию ОС. Вместо кода и алгоритмов — нейронки, которые предсказывают каждый пиксель экрана на основе человеческих действий. Для создания интерфейса не нужно писать ни единой строчки кода Никаких HTML, CSS, Qt или других фреймворков — нейросеть сама рисует всё от кнопок до окон. Архитектура состоит из двух частей: 1️⃣Двухуровневая RNN на LSTM — это "мозг" системы: 🔵Нижний LSTM обрабатывает ввод пользователя (координаты мыши, клики, клавиши) и "смотрит" на предыдущий кадр через механизм внимания 🔵Верхний LSTM анализирует результаты нижнего уровня и поддерживает долгосрочную память о состоянии системы 🔵Между уровнями есть обратная связь — верхний LSTM "подсказывает" нижнему, что важно помнить 2️⃣ Диффузионный рендерер (UNet) — получает "инструкции" от LSTM и рисует следующий кадр экрана Почему именно LSTM, а не Transformer? Трансформеры становятся всё медленнее с ростом последовательности, а LSTM работает с константной сложностью на каждом шаге. Для ОС, которая должна работать часами без перезагрузки, это критично! Как обучали эту "операционку"? Система обучалась на 122К записей взаимодействий с Ubuntu XFCE. Данные собирали двумя способами: 1️⃣ИИ-агент Claude-3.5 методично кликал по всем кнопочкам (представьте самого усидчивого QA-тестера) 2️⃣Случайные клики и движения — чтобы модель не думала, что курсор к кнопке закрытия == автоматическое закрытие окна Обучение проходило в 4 этапа: 1️⃣Предобучение RNN — учим предсказывать кадры 2️⃣Совместное обучение — RNN + диффузионная модель работают в тандеме 3️⃣Scheduled Sampling — борьба с накоплением ошибок (когда модель начинает "галлюцинировать") 4️⃣Расширение контекста — увеличиваем "память" системы Потребовалось 23,000 GPU-часов на H100/H200 🔥 Что умеет уже сейчас? ✔️Точно отслеживает курсор (погрешность ~1.5 пикселя) ✔️ Открывает приложения и меню ✔️ Реагирует на клики и базовые команды ❌ Пока плохо с детальным вводом текста (консоль пока не подвластна) ❌ Низкое разрешение (512×384) ❌ Всего 1.8 FPS на H100 Куда это может привести? Ближайшее будущее: - Интерфейсы, которые адаптируются под пользователя в реальном времени - Управление жестами и голосом вместо кликов - "Умные" меню, которые предугадывают ваши действия Долгосрочная перспектива: - Стирание границ между приложениями — всё становится одним "интеллектуальным потоком" - Превращение пассивного контента в интерактивный (представьте фильм, где вы можете влиять на сюжет) - Персонализированные ОС, которые "растут" вместе с пользователем - Интерфейсы, которые сами себя программируют под задачи Почему это важно? Мы привыкли к интерфейсам, которые программисты жестко закодили десятки лет назад. Каждая кнопка, каждое меню — результат тысяч строк кода. NeuralOS показывает путь к полностью адаптивным системам, где каждый элемент может изменяться в зависимости от контекста и потребностей. Больше никаких багов в UI (ну, почти), никаких костылей в коде интерфейса, никаких "а почему эта кнопка именно здесь?". Нейросеть сама решает, как лучше организовать рабочее пространство. Да, пока это больше proof-of-concept, чем готовый продукт. Но помнишь, как выглядели первые версии ChatGPT? Или первый iPhone? Полезные ссылочки: Демо: https://neural-os.com/ Github: https://github.com/yuntian-group/neural-os/tree/main Статья: https://arxiv.org/pdf/2507.08800 P.S. Интересно, сколько времени пройдёт до того момента, когда мы будем работать в ОС, которая "думает" быстрее нас? И главный вопрос — будет ли она показывать рекламу прямо в интерфейсе? 😅 @alexs_journal
3.1K
просмотров
3949
символов
Да
эмодзи
Да
медиа

Другие посты @alexs_journal

Все посты канала →