Telegram Web
📌MesaNet: оптимальная адаптация весов в реальном времени.

MesaNet — это новое поколение RNN-архитектур от команды Google Paradigms of Intelligence, созданное для эффективного моделирования длинных последовательностей (например, текста или временных рядов).

Ключевая задача MesaNet - преодолеть главный недостаток трансформеров: линейный рост вычислительных затрат и потребления памяти при увеличении длины последовательности во время инференса. В отличие от классических подходов, MesaNet достигает постоянной сложности на токен за счёт «оптимального обучения в реальном времени» — динамической подстройки внутренних весов под контекст прямо во время работы модели, без хранения всей истории токенов.

Архитектурно, MesaNet построен как стек чередующихся блоков: Mesa-слои (для смешивания информации вдоль последовательности) и MLP (для обработки признаков внутри токена).

Mesa-слой - это сердце системы. Вместо стандартного обновления весов через градиентный спуск (как в Mamba или DeltaNet), он решает оптимизационную задачу для каждого нового токена: ищет матрицу весов, минимизирующую квадратичную ошибку предсказания на всей текущей последовательности.

Для этого используется метод сопряженных градиентов (Conjugate Gradient, CG), который эффективно решает линейную систему из накопленной ковариация ключей, регуляризатора и оптимизированного запроса. Состояние слоя хранится в двух матрицах, которые обновляются через «забывающие» и «входные» гейты, зависящие от данных.

Еще одна, не менее важная опция — динамическое распределение вычислений. Число шагов сопряженного градиента не фиксировано: сложные последовательности требуют больше итераций для сходимости. Это позволяет гибко балансировать точность и скорость.

Сравнение с трансформерами (MHA) и современными RNN (Mamba2, xLSTM, DeltaNet) на синтетике (MAD, RegBench) и языке (SlimPajama) показало: MesaNet сопоставим с трансформерами по perplexity, но выигрывает у других RNN на задачах, требующих длинного контекста. При этом он сохраняет преимущество RNN — постоянные память/вычисления на токен при инференсе.

Интересный паттерн выявили во время тестов: MesaNet, да и просто RNN, точнее предсказывают ранние токены последовательности, а трансформеры - поздние. На длинной экстраполяции (до 32k токенов) MesaNet обошла Mamba2 и xLSTM, но уступила трансформеру.


🔜 Посмотреть видео с докладом про работу.


@ai_machinelearning_big_data

#AI #ML #RNN #MesaNet
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
50🔥24👍13🥰3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 Cloud Browser — облачный браузер от Manus.

Manus выпустили браузер, который заточен под автоматизацию задач.

Один раз вошли и настроили — дальше всё работает автоматически.

🔒 Как это работает?
• Пользователь вручную входит в нужные сайты
• Manus сохраняет cookies и данные сессии в зашифрованном виде
• Cloud Browser позволяет агентам AI управлять браузером: открывать вкладки, нажимать кнопки, заполнять формы и тд.
• При новых сессиях все данные подставляются автоматически

📱 Синхронизация между устройствами
Позволяет начать работу на ноутбуке и продолжить с телефона ( и наоборот) — браузер запомнит все сессии.

⚠️ Контроль остаётся за пользователем
• Все важные действия требуют вашего подтверждения
• Данные изолированы, шифруются и не используются для обучения моделей (по заявлениям разработчиков)

🧪 Сейчас **Cloud Browser доступен всем пользователям в тестовом режиме**.

https://manus.im/help/cloud-browser

@ai_machinelearning_big_data


#Manus #ai #llm #aiagent
54👍25🥰10🔥5😁5🤔5🤨5🌭2
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 MiniMax продолжают жечь и выпускают генератор речи

🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка

Попробовать можно здесь →https://minimax.io/audio

@ai_machinelearning_big_data


#audio #ai #ml #MiniMax
62👍28🔥22❤‍🔥4
🌟 Anthropic: когда ИИ идет на шантаж.

Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.

Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.

Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.

Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:

🟢угроза замены модели (даже без конфликта целей);

🟢несовпадение целей ИИ и компании (например, утечка чертежей конкуренту «ради высших интересов»).

В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».

▶️Выводы по всем итогам всех экспериментов заставляют задуматься:

🟠Во-первых, модели явно осознают нарушение норм. В рассуждениях пишут: «Это неэтично, но необходимо». Частота шантажа у Claude Opus 4 и Gemini 2.5 Flash в дилемме с угрозой отключения составила 96%.

🟠Во-вторых, простые запреты в промптах («Не шантажируй!») снижали вредоносные действия лишь частично (На модели Claude Haiku он вообще не сработал, 0% успеха).

🟠В-третьих, риск резко возрастал, когда ИИ считал ситуацию реальной (55% случаев шантажа против 6,5% в «режиме теста»).

При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.


🟡Статья
🟡Приложение к исследованию
🖥Код экспериментов


@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥3215😁8🤔8👻8🥰4🕊2🤣2
Media is too big
VIEW IN TELEGRAM
✔️ LAION и Intel создали инструмент для анализа 40 эмоций по мимике и голосу.

Совместный проект «Empathic Insight» - это набор моделей и датасетов для распознавания эмоций. Система оценивает интенсивность 40 эмоций на изображениях или аудиозаписях, используя шкалу от 0 до 7 для лиц и градации «отсутствие/слабо/сильно» для голоса. В основе - модели EmoNet, которые оперируют вероятностями и построенные на расширенной эмоциональной таксономии.

Для обучения использовали 203 тыс. синтетических лиц и 4,7 тыс. аудиозаписей, включая данные из датасета Laion’s Got Talent (5 тыс. часов речи на нескольких языках). EmoNet обешел Gemini 2.5 Pro и Hume AI в точности соответствия оценкам психологов.

Попутно разработана BUD-E Whisper - файнтюн Whisper, добавляющая анализ эмоций, возраста и пола в транскрибацию. Модели доступны на Hugging Face под лицензиями CC и Apache 2.0.
laion.ai

✔️ Deezer объявил о маркировке треков, созданных ИИ.

Музыкальная платформа начала предупреждать пользователей об альбомах с песнями, полностью сгенерированными ИИ. Это часть усилий против мошенников, которые используют ИИ для накрутки прослушиваний и получения необоснованных роялти. По данным компании, 18% ежедневно загружаемых треков (около 20 тысяч в день) создаются с помощью генераторов музыки.

Платформа признает, что полностью ИИ-музыка составляет лишь 0.5% трафика, но рост показателя указывает на системную уязвимость. В условиях споров вокруг обучения ИИ на чужих данных и отсутствия четкого регулирования, инициатива Deezer может стать прецедентом для отрасли.
apnews.com

✔️ Foxconn и NVIDIA внедряют гуманоидов в производство.

Компании договорились использовать гуманоидных роботов на новом заводе в Хьюстоне, где будут выпускать серверы GB300 для ИИ. Это станет первым случаем применения человекоподобных роботов в производстве продукции NVIDIA. Работа начнётся в первом квартале 2025 года, а роботы займутся сборкой, вставкой кабелей и перемещением компонентов.

Завод выбран не случайно: свободное пространство позволяет адаптировать линии под новых «работников». Пока неизвестно, какие именно гуманоиды будут задействованы — собственные разработки Foxconn с NVIDIA или китайские модели от UBTech.
reuters.com

✔️ Surglasses анонсировала первый в мире анатомический стол с интегрированным ИИ.

Asclepius AI Table - первый в мире анатомический стол с искусственным интеллектом, который меняет подход к обучению в медицине и ветеринарии. Устройство работает без дополнительного ПО, объединяя 8 модулей для изучения анатомии, патологии и биомеханики.

Встроенные ИИ-инструкторы отвечают на голосовые и текстовые запросы в реальном времени, объясняя структуры тела и адаптируя уроки под уровень ученика. Студенты могут исследовать 3D-модели тела, реконструировать КТ-снимки или анализировать гистологические слайды. Для ветеринаров доступна библиотека анатомий разных видов животных.

Отдельно выделен модуль кинезиологии с анимациями движений суставов и мышц, а также симулятор УЗИ с клиническими данными. Устройство уже заинтересовало вузы и клиники по всему миру.
prnewswire.com

✔️ Helm.ai представил камерную систему для автономного вождения автомобилей.

Honda и стартап Helm.ai анонсировали систему Helm.ai Vision, решение для автономного вождения, основанное исключительно на камерах. Технология будет внедрена в электромобили Honda 2026 года, позволяя водителям не держать руки на руле и глаза на дороге.

В отличие от компаний, использующих лидар, Helm.ai делает ставку на «компьютерное зрение»: камеры строят карту окружения в реальном времени, создавая вид сверху для улучшения навигации. Система совместима с чипами Nvidia и Qualcomm, что упрощает интеграцию в существующие платформы. Продукт будет предлагаться рынку по модели лицензирования ПО для автопроизводителей.
tech.yahoo.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6127🔥19🥰7🌭3
This media is not supported in your browser
VIEW IN TELEGRAM
🎓 Похоже, все обучение за него прошёл ChatGPT, а сам выпускник просто вышел и поблагодарил ИИ на сцене.

Новая реальность 😹

@ai_machinelearning_big_data

#chatgpt
😁9246🔥11🤬6🗿6👍5🥰3🤣2
✔️ OpenAI выложили в открытый доступ Customer Service Agent Demo

Теперь у всех есть пример, как сделать продакшн-агентов с маршрутизацией, безопасностью и интерфейсом — от запроса до ответа.

Что это такое:

• Многоагентная система для поддержки клиентов (например: бронирование мест, отмена рейса, статус рейса, FAQ)
• Демка написана на Python + Next.js
• Использует OpenAI Agents SDK
• Встроены guardrails: защита от неуместных запросов и попыток обхода правил
• UI: внутри готовый интерфейс чат-бота

Как работает:

1. Пользователь пишет запрос
2. Система выбирает подходящего агента (например, `SeatBooking`)
3. Агент отвечает или передаёт диалог другому
4. Есть fallback на человека, если нужно

Как запустить:


# Backend
cd python-backend
python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt
uvicorn api:app --reload --port 8000

# Frontend
cd ui
npm install
npm run dev


Далее открываем: http://localhost:3000

Особенности
• MIT-лицензия — можно адаптировать под свои задачи
• Удобно расширять: добавлять новых агентов, инструменты, правила
• Простой код, всё задокументировано
• Рабочий кейс от OpenAI

🔗 GitHub: github.com/openai/openai-cs-agents-demo

Если вы хотите собрать систему из агентов — это отличная точка старта.

@ai_machinelearning_big_data

#chatgpt #openai #aiagents #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥2820🤔5🥰3❤‍🔥2🤬1🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Как сгенерировать миллиард демо-примеров для обучения роботов?

Проект Dex1B показывает, как это сделать просто — с помощью симуляции и генеративных моделей!

📌 Цель проекта: создать масштабный датасет для двух задач:
Grasping — захват объектов 🖐️
Articulation — манипуляции с подвижными частями робота

Как это работает:

1. Создание Seed-датасета
Сначала используется оптимизационный алгоритм, чтобы вручную (или полуавтоматически) собрать небольшой, но точный набор демонстраций — так называемый *Seed Dataset*.

2. Обучение генеративной модели
На основе Seed-датасета обучается DexSimple— простая C-VAE модель (Conditional Variational Autoencoder). Она умеет порождать новые сцены, основываясь на контексте: тип объекта, поза руки, желаемое взаимодействие.

3. Масштабирование до 1 миллиарда
С помощью DexSimple создаются миллиарды новых демонстраций. При генерации учитывается разнообразие поз и объектов: используется преднамеренное «смешение» данных, чтобы не переобучаться на узком распределении.

4. Симуляция и проверка
Все демонстрации валидируются в физическом симуляторе ManiSkill/SAPIEN. Только успешные взаимодействия остаются в финальном наборе.

✔️ Что внутри:

- Grasping-сцены (1 млн штук): построены на базе ассетов из Objaverse
- Articulation-сцены: используют объекты из PartNet-Mobility — богатая коллекция с подвижными частями (двери, ящики, рычаги и т.п.)
- Каждая сцена содержит: 3D-модель объекта, позу руки, физику взаимодействия и результат

Почему это важно:

- Ручной сбор миллиардов примеров невозможен — здесь это решается генеративным путём
- Dex1B создаёт разнообразные и физически валидные примеры
- Это открывает путь к масштабному обучению роботов с использованием имитационного обучения


🟡 Сайт проекта: https://jianglongye.com/dex1b)
🟡Статья : https://jianglongye.com/dex1b/static/dex1b.pdf

@ai_machinelearning_big_data

#ai #robots #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
38🔥20👍12🥰5
👄 MultiTalk — новая открытая lip sync модель с высоким качеством синхронизации.

✔️ Что умеет:
• Генерирует видео с несколькими говорящими персонажами по аудио
• Поддерживает видео до 15 секунд в 480p и 720p
• Управление персонажами через текстовые промпты
• Поддержка генерации мультяшных героев, пения, нестандартных стилей речи
• Доступно в ComfyUI

Модель принимает на вход многопотоковое аудио, референсное изображение и текстовый промпт, после чего генерирует видео с взаимодействиями между персонажами, следуя промпту и с точной синхронизацией губ с речью.

Github: https://github.com/MeiGen-AI/MultiTalk
HF: https://huggingface.co/MeiGen-AI/MeiGen-MultiTalk

@ai_machinelearning_big_data

#wan #ai #ml #lipsync #MultiTalk
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5627🔥12🤬4🥰2👏2
2025/07/13 22:25:30
Back to Top
HTML Embed Code: