AI для Всех@nn_for

🤫

Полностью сгенерированная Операционная Система

Как нейронная сеть учится притворяться Ubuntu и почему это заставляет по-новому взглянуть на то, что мы видим на экране

Когда вы двигаете курсор, открываете папку или набираете команду в терминале, кажется, что «компьютер действительно что-то делает». Но если посмотреть на компьютер с точки зрения стороннего наблюдателя не знакомого с внутренними процессами, всё сводится к тому, что несколько миллионов прямоугольников-пикселей перекрашиваются в другие цвета — кадр за кадром.

Команда из Университета Ватерлоо и NRC Canada пошла ва-банк и решила: раз «всё равно нужно показывать пиксели», значит саму операционку можно целиком сгенерировать. Они собрали NeuralOS — модель, которая получает поток событий «мышь-клавиатура» и каждый раз галлюцинирует следующую картинку экрана. Никакого кода файлового менеджера, никакого Firefox внутри контейнера — только рекуррентная нейросеть, следящая за состоянием, и диффузионный «художник», дорисовывающий кадр.

За кулисами всё выглядит так.
• Сначала автоэнкодер ужимает скриншот Ubuntu XFCE до латентного «мини-скрина» 64 × 48 × 16.
• Два LSTM-слоя держат в памяти, что открыто и куда смотрит курсор, причём позиция курсора кодируется мягкой двухмерной «гауссианой», чтобы не промахнуться ни на пиксель.
• Дальше UNet-диффузор берёт эту «память» и возвращает на экран новый кадр — уже в цвете, уже со всеми иконками и тенью под окном.

Обучали чудовище на 120 000 случайных сессий и 2000 «разумных» сессий, которые имитировал агент Claude 3.5. И да, чтобы мышка летала естественно, авторы заставляли алгоритм чертить кривые Безье, а не случайную пилу.

Результат удивительно живой: курсор «промахивается» в среднем меньше чем на два пикселя, переходы в меню угадываются в трети случаев, а запустить демонстрацию можно в браузере — правда, пока со скоростью 1,8 FPS на H100. Сценарий «напечатать длинную команду в терминал» NeuralOS ещё путает, зато окно «Домашняя папка» появляется с такой же задержкой, как на настоящем неторопливом ноуте.

Почему это важно нам, разработчикам?
1. Зеркало интерфейсов. Мы привыкли отделять «код» от «UI», но NeuralOS показывает, что граница иллюзорна: если модель умеет правильно красить пиксели, пользователь поверит во всё, что угодно.
2. Нейронные симуляторы вместо моков. Представьте тестовую среду, где ваш автотест «щёлкает мышкой», а за кадром нет Selenium-драйвера, вместо нее диффузионная модель, обученная на реальных сессиях. Сетевая нестабильность, лаги, случайные клики — всё появится естественно.
3. Карьерный бонус. Рекуррентная память + диффузия — не самая очевидная пара. Разобравшись, как они дружат, вы прокачаете насмотренность в архитектурах за пределами классических LLM.

У NeuralOS, конечно, много «но»: низкое разрешение, чудовищные вычислительные затраты, отсутствие сетевых стэков, да и зачем такой Франкенштейн в проде — неясно. Но сама идея, что поток пикселей можно «выдумывать на лету» звучит очень интересно. Сегодня — игрушка для исследователей, но кто его знает что будет завтра?

💬 Как вам перспектива «генеративного десктопа»? Готовы доверить AI рисовать каждую кнопку, которую нажимаете, или цените стабильность классических окон? Поделитесь мыслями в комментариях и заодно киньте ссылку друзьям-разработчикам — пусть спор разгорится жарче!

Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18🤯8🔥5😐5🤩1

www.tgoop.com/nn_for_science/2484

22.8K viewsedited Jul 14 at 07:41

tgoop.com/nn_for_science/2484

Create: 2025-07-14
Last Update: 2025-10-12 11:51:05

🤫 Полностью сгенерированная Операционная Система

Как нейронная сеть учится притворяться Ubuntu и почему это заставляет по-новому взглянуть на то, что мы видим на экране

Когда вы двигаете курсор, открываете папку или набираете команду в терминале, кажется, что «компьютер действительно что-то делает». Но если посмотреть на компьютер с точки зрения стороннего наблюдателя не знакомого с внутренними процессами, всё сводится к тому, что несколько миллионов прямоугольников-пикселей перекрашиваются в другие цвета — кадр за кадром.

Команда из Университета Ватерлоо и NRC Canada пошла ва-банк и решила: раз «всё равно нужно показывать пиксели», значит саму операционку можно целиком сгенерировать. Они собрали NeuralOS — модель, которая получает поток событий «мышь-клавиатура» и каждый раз галлюцинирует следующую картинку экрана. Никакого кода файлового менеджера, никакого Firefox внутри контейнера — только рекуррентная нейросеть, следящая за состоянием, и диффузионный «художник», дорисовывающий кадр.

За кулисами всё выглядит так.
• Сначала автоэнкодер ужимает скриншот Ubuntu XFCE до латентного «мини-скрина» 64 × 48 × 16.
• Два LSTM-слоя держат в памяти, что открыто и куда смотрит курсор, причём позиция курсора кодируется мягкой двухмерной «гауссианой», чтобы не промахнуться ни на пиксель.
• Дальше UNet-диффузор берёт эту «память» и возвращает на экран новый кадр — уже в цвете, уже со всеми иконками и тенью под окном.

Обучали чудовище на 120 000 случайных сессий и 2000 «разумных» сессий, которые имитировал агент Claude 3.5. И да, чтобы мышка летала естественно, авторы заставляли алгоритм чертить кривые Безье, а не случайную пилу.

Результат удивительно живой: курсор «промахивается» в среднем меньше чем на два пикселя, переходы в меню угадываются в трети случаев, а запустить демонстрацию можно в браузере — правда, пока со скоростью 1,8 FPS на H100. Сценарий «напечатать длинную команду в терминал» NeuralOS ещё путает, зато окно «Домашняя папка» появляется с такой же задержкой, как на настоящем неторопливом ноуте.

Почему это важно нам, разработчикам?
1. Зеркало интерфейсов. Мы привыкли отделять «код» от «UI», но NeuralOS показывает, что граница иллюзорна: если модель умеет правильно красить пиксели, пользователь поверит во всё, что угодно.
2. Нейронные симуляторы вместо моков. Представьте тестовую среду, где ваш автотест «щёлкает мышкой», а за кадром нет Selenium-драйвера, вместо нее диффузионная модель, обученная на реальных сессиях. Сетевая нестабильность, лаги, случайные клики — всё появится естественно.
3. Карьерный бонус. Рекуррентная память + диффузия — не самая очевидная пара. Разобравшись, как они дружат, вы прокачаете насмотренность в архитектурах за пределами классических LLM.

У NeuralOS, конечно, много «но»: низкое разрешение, чудовищные вычислительные затраты, отсутствие сетевых стэков, да и зачем такой Франкенштейн в проде — неясно. Но сама идея, что поток пикселей можно «выдумывать на лету» звучит очень интересно. Сегодня — игрушка для исследователей, но кто его знает что будет завтра?

💬 Как вам перспектива «генеративного десктопа»? Готовы доверить AI рисовать каждую кнопку, которую нажимаете, или цените стабильность классических окон? Поделитесь мыслями в комментариях и заодно киньте ссылку друзьям-разработчикам — пусть спор разгорится жарче!

Статья

Telegram News

🤫 Полностью сгенерированная Операционная Система