Главная идея книги - показать, почему и как глубокие нейросети учатся извлекать сжатые, информативные представления сложных данных, и что у них внутри:
📖 Читать онлайн: ma-lab-berkeley.github.io/deep-representation-learning-book
@ai_machinelearning_big_data
#book #deeplearning #representationlearning #ucberkeley #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78❤20🔥17🤔1
Media is too big
VIEW IN TELEGRAM
По слухам, OpenAI разрабатывает Agent Builder - нативную no-code-платформу для создания автономных ИИ-агентов. Если информация подтвердится, этот инструмент сможет заменить целый стек сервисов вроде Zapier, n8n и Vapi, объединив всё в единую экосистему OpenAI.
Первые отзывы называют интерфейс одним из самых плавных и интуитивных среди всех agent-canvas решений.ентов прямо внутри платформы.
testingcatalog
Польский стартап Pathway представил новую ИИ архитектуру под названием Dragon Hatchling (BDH), которая может решить одну из самых сложных проблем ИИ - генерализацию во времени, то есть способность модели учиться из опыта и делать прогнозы, как это делает человек.
Модель строит структуру, похожую на нейронные сети человеческого мозга, которая формируется спонтанно во время обучения и действует как неокортекс, отвечающий за обучение, память и принятие решений.
В отличие от классических трансформеров, BDH использует локальные нейронные связи и геббовское обучение, что делает её более интерпретируемой и устойчивой к изменению данных. При этом она демонстрирует производительность, сопоставимую с моделями GPT-уровня, но требует меньше вычислительных ресурсов.
Разработчики отмечают, что такая архитектура может приблизить ИИ к человеко-подобному мышлению и пониманию, открывая путь к созданию систем, способных на адаптацию и обучение в реальном времени.
arxiv
Всего 3 млрд активных параметров, но по бенчмарками модель не уступает GPT-5-Mini и Claude 4 Sonnet, обгоняя их в задачах STEM, VQA, OCR, Video и Agent-тестах.
Плюс теперь доступны FP8-версии не только 30B, но и гиганта Qwen3-VL-235B-A22B.
API / Github / Попробовать
Исследователи представили небольшую модель с 7 миллиардами параметров, обученную специально для работы с формами и документами. Несмотря на компактный размер и низкую стоимость обучения - всего $196, модель смогла превзойти GPT-4.1 на тысяче задач по извлечению структурированных данных.
Команда использовала синтетические данные, позволяющие модели сохранять «память» между разными частями длинных файлов и правильно связывать имена, даты и значения, находящиеся далеко друг от друга.
Для обучения применялась Low-Rank Adaptation (LoRA) - изменено всего 0,53% весов, и Group Relative Policy Optimization с семантическим вознаграждением и строгой проверкой JSON-ответов.
Результат - 0,573 среднее вознаграждение, 89% корректных JSON-ответов и производительность выше GPT-4.1, при затратах в сотни раз меньших.
arxiv
WSJ сообщает: Nvidia инвестирует $100 млрд в строительство 10 ГВт дата-центров для OpenAI. Это не благотворительность - компания фактически финансирует собственный спрос.
По расчётам аналитиков, на каждые $10 млрд инвестиций OpenAI обязуется купить GPU Nvidia на $35 млрд. Так Nvidia даёт OpenAI дешёвый капитал и гарантирует себе заказы на годы вперёд.
Это часть большой стратегии: компания уже выкупает простаивающие мощности CoreWeave, инвестирует в Intel и xAI, формируя замкнутую экосистему вокруг своих чипов.
Так Nvidia снижает маржу, но получает главное - контроль над всей энергией и инфраструктурой ИИ-мира.
Wsj
Стартап Neuphonic представил новую систему синтеза речи NeuTTS Air - компактную модель, работающую прямо на устройствах без подключения к облаку.
NeuTTS Air способна реалистично воспроизводить речь и клонировать голос по трёхсекундной записи, оставаясь лёгкой и быстрой. Модель выпускается в формате GGML, что позволяет запускать её на компьютерах, смартфонах и даже на Raspberry Pi.
GitHub
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤62👍24🔥13🥱3❤🔥2💋1💘1
Позволяет создать нативные приложенийяпрямо внутри ChatGPT.
Идея простая: теперь не нужно выходить из ChatGPT, чтобы делать привычные вещи.
Можно прямо в чате работать с дизайном в Figma, создавать презентации в Canva, искать жильё на Booking или смотреть курсы на Coursera — всё в одном окне.
Платформа поддерживает авторизацию, оплату и подключение внешних сервисов,
а значит, ChatGPT становится центром, где совмещаются ИИ, приложения и автоматизация задач.
Скоро разработчики (вайбкодеры) смогут добавлять свои приложения и зарабатывать на них через ChatGPT SDK.
По сути это убийца n8n и Zapier.
Это интуитивно понятный**визуальный конструктор**, где можно создавать своих ИИ-агентов без единой строчки кода.
Просто перетаскиваешь блоки, подключаешь MCP и ChatKit — и агент сам ищет файлы, анализирует данные и выполняет задачи.
Инструмент уже доступен всем.
OpenAi умеют в дизайн, должно быть удобно.
Можно уже попробовать: https://platform.openai.com/agent-builder
Вышел из беты, получил интеграцию со Slack и собственный SDK.
На демо агент управлял светом и экраном голосом - без кода.
На презентации заявили, что теперь почти весь их код пишется с помощью Codex
Благодаря Codex разработчики OpenAI стали отправлять на 70% больше pull-request’ов в неделю, чем раньше.
Теперь у кодекса появляется интеграция со Slack и SDK, чтобы разработчики могли встраивать его в свои рабочие процессы.
Прямо в эфире Codex написал код для управления камерой, сам собрал интерфейс и **запустил готовое при
$15 за ввод и $120 за вывод за 1M токенов
Gpt-realtime-mini - на 70% дешевле, подходит для мгновенных ответов и потоковых задач
Можно будет генерировать видео прямо из кода
PS: Agent Builder выглядит действительно интересно - интуитивный, гибкий, инструмент с большим потенциало
м.
А вот насколько полезными окажутся приложения внутри ChatGPT, не особо понятно.
OpenAI не боится экспериментировать.
Они развивают ChatGPT как платформу, ищут
новые варианты захвата рынка и пробуют смелые идеи. Это дорогого стоит.
Их интерфейс просто топ: минимализм, аккуратность, почти в духе Apple. UX - на уровне искусства.
У OpenAI уже более 800 млн активных пользователей в неделю и они обрабатывают 6 миллиардов токенов в минуту!
К концу года число пользователей, похоже, вплотную подойдёт к 1 миллиарду.
Но гонка только начинается.
Google явно готовит ответ - Gemini 3 обещает быть топом. Другие игроки тоже не дремлют.
@ai_machinelearning_big_data
#openai #chatgpt #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍449🔥232❤178🎉119👏96😁73🤔51🤩39🤣15👌13🙈13
Google объявил о запуске новой модели EmbeddingGemma, созданной для работы прямо на устройствах - без подключения к интернету. Модель на 308 миллионов параметров, поддерживает более 100 языков и показывает лучшие результаты среди всех открытых моделей размером до 500 млн параметров по тесту MTEB.
После квантования модель кушает менее 200 МБ оперативной памяти, а генерация эмбеддингов занимает всего около 20 миллисекунд на устройствах с EdgeTPU.
Google внедрил технологию Matryoshka Representation Learning, позволяющую использовать разные размеры векторов - от 768 до 128 - в зависимости от задач и ресурсов устройства. Контекстное окно достигает 2000 токенов.
EmbeddingGemma уже интегрируется с популярными инструментами вроде SentenceTransformers, Llama.cpp, LangChain и Transformers.js, а её веса открыты для использования и коммерческой адаптации.
googleblog
Вышла новая open-source модель Kani-TTS-370M, создающая естественное и выразительное звучание при крайне высокой скорости работы. Модель насчитывает 370 миллионов параметров и оптимизирована под потребительские GPU, включая RTX 3060, где она обеспечивает реальное время генерации речи.
Kani-TTS построена на сочетании NanoCodec и LFM2-350M, что обеспечивает компактность и качество, сравнимое с крупными нейронными TTS-системами. Разработчики использовали современные нейросетевые методы синтеза речи, чтобы добиться максимально естественной интонации и чистоты звучания.
Главный акцент сделан на эффективности и универсальности - модель легко разворачивается локально, подходит для встраивания в ассистентов, игровых персонажей и офлайн-озвучку, не требуя облачных вычислений.
HF
По оценкам Adobe Analytics, объем онлайн-продаж в США в праздничный сезон 2025 года достигнет $253,4 млрд, что на 5,3 % больше, чем в прошлом году. AI-трафик при этом вырастет на 520 %, особенно в последние 10 дней перед Днём благодарения.
Почти половина американцев намерены воспользоваться AI-инструментами: 53 % - для поиска товаров, 40 %- для рекомендаций, 36 % — для поиска выгодных предложений, 30 % — чтобы вдохновиться идеями подарков.
Мобильные устройства останутся доминирующей платформой - 56,1 % транзакций пройдут с телефона. Среди драйверов роста - скидки (среднее снижение цен до 28 %), сервисы «купи сейчас, заплати позже» и активность в соцсетях, чья рекламная отдача вырастет на 51 %.
techcrunch
Модель обучается не на 3D-структурах, а чисто на видео и многовидовых данных, что делает её универсальной и масштабируемой.
Kaleido превосходит все предыдущие генеративные модели в задачах с малым числом видов и впервые достигает качества рендеринга уровня InstantNGP в zero-shot режиме. Это шаг к гибкому world modeling, способному как точно реконструировать реальность, так и дорисовывать недостающие детали.
shikun
OpenAI и AMD объявили масштабное сотрудничество: по условиям соглашения OpenAI развернёт 6 гигаватт графических процессоров AMD, начиная с первой волны - 1 гигаватт Instinct MI450 во второй половине 2026 года.
AMD, чтобы выровнять интересы, выдала OpenAI варрант на 160 млн своих акций, который будет реализован по мере достижения этапов развертывания и роста стоимости компании, что может превратить его в ~10 % долю.
Соглашение может принести AMD десятки миллиардов долларов дохода, а также усилить её позиции на рынке чипов для искусственного интеллекта.
Этот шаг позволяет OpenAI диверсифицировать аппаратные поставки и снизить зависимость от одного производителя, а также закладывает мощную основу для масштабных AI-инфраструктур следующих лет.
openai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍97🔥35❤23🤩13👏7🎉5💘1
One Day Offer для ML-разработчиков — это знак! Знак, чтобы всего за один день получить оффер мечты! 👌
Регистрируйтесь по ссылке, если вы:
✔️ Горите идеями в области речевых технологий.
✔️ Можете похвастаться опытом разработки ML-моделей/пайплайнов.
✔️ Хотите изменить мир.
Встречаемся 11 октября — регистрация здесь!
Регистрируйтесь по ссылке, если вы:
✔️ Горите идеями в области речевых технологий.
✔️ Можете похвастаться опытом разработки ML-моделей/пайплайнов.
✔️ Хотите изменить мир.
Встречаемся 11 октября — регистрация здесь!
👌86🎉26🔥19❤14🤩11😁10👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Jules - это ИИ, который умеет писать код, исправлять ошибки и создавать тесты для ваших проектов.
Он подключается к GitHub или другому репозиторию, анализирует кодовую базу и выполняет задачи, которые вы ему задаёте.
С помощью Jules Tools можно запускать и управлять этим агентом напрямую через терминал, без браузера.
Пример, вводите:
jules remote new --session "fix login bug"
После запуска команда создаёт виртуальную машину, клонирует репозиторий, решает задачу и отправляет pull request с готовым исправлением.
Что интересного:
- Командная строка и API для управления агентом
- Асинхронные задачи и параллельное выполнение
- Скрипты и автоматизация (через CI, cron, pipelines)
- Память и адаптация под ваш стиль кода
- Безопасное хранение ключей и токенов
- Интерактивный интерфейс в терминале (TUI) с отображением статуса задач в реальном времени
TUI-режим напоминает веб-панель, но работает прямо в консоли, позволяя быстро запускать, отслеживать и управлять сессиями.
Jules можно интегрировать с Slack или системами сборки - агент сам создаёт и выполняет задачи, пока вы занимаетесь другими делами.
Если агент сталкивается с проблемой, то приостанавливает работу и запрашивает помощь, а не «угадывает» решение.
Обе утилиты - Jules и Gemini CLI - работают на Gemini 2.5 Pro, но Jules ориентирован на короткие и точные задачи, а Gemini CLI - на длительную совместную работу.
Бесплатная версия позволяет запускать 15 задач в день (до 3 одновременно).
Платные тарифы - $19.99 и $124.99 - дают лимиты до 100 и 300 задач.
Google также планирует добавить поддержку GitLab, Bitbucket и локальных проектов без Git.
@ai_machinelearning_big_data
#Google #Jules #AI #CodingAgent #Gemini25Pro #Automation
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥88❤20👍20🎉12😁6👏5🤩5🥰2🤣2🫡2
У вас есть 404 секунды, чтобы разобраться, что такое Model Context Protocol (MCP) и почему его уже называют новым стандартом для AI-разработки
MCP — это опенсорсный протокол, который позволяет LLM работать с IDE, базами данных, таск-трекерами и даже мессенджерами по единому стандарту.
Больше не нужно писать десятки отдельных интеграций — один протокол закрывает все сценарии для интеграций с LLM.
В новом выпуске «404 секунды от Yandex Cloud»:
— как MCP упрощает жизнь разработчикам;
— почему SourceCraft уже добавил поддержку протокола в России.
Выпуск вышел совсем недавно на YouTube и VK Видео, будьте в курсе первыми.
MCP — это опенсорсный протокол, который позволяет LLM работать с IDE, базами данных, таск-трекерами и даже мессенджерами по единому стандарту.
Больше не нужно писать десятки отдельных интеграций — один протокол закрывает все сценарии для интеграций с LLM.
В новом выпуске «404 секунды от Yandex Cloud»:
— как MCP упрощает жизнь разработчикам;
— почему SourceCraft уже добавил поддержку протокола в России.
Выпуск вышел совсем недавно на YouTube и VK Видео, будьте в курсе первыми.
👍81👏21🤓14❤13💯9🤩6🤣6😍2😁1🥱1
Модель умеет рассуждать на основе изображений, понимать сложные визуально-текстовые задачи и поддерживает мультиязычные кейсы.
Ключевые особенности:
- Visual Reasoning - глубокое понимание изображений и сцен
- Multilingual Support - работа с несколькими языками
- Visual Dialogue - позволяет весть диалог на основе изображения и текста
- Thinking-on-Image - рассуждение на уровне визуальных деталей
HunyuanVision-1.5 демонстрирует продвинутые способности в задачах анализа, генерации и рассуждения. Работает шустро, русский понимает, но не без косяков.
Модель доступна для использования через Tencent Cloud API и LMArena (Direct Chat).
Полный технический отчёт и веса обещают к релизу позже в октябре. Ждемс.
@ai_machinelearning_big_data
#Tencent #llm #ml #Hunyuan #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🎉69❤34🔥19👏16😁12🤩11🥰3👌3💘1
Forwarded from Яндекс
Media is too big
VIEW IN TELEGRAM
Подписывайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👨💻63👍26❤25👏11😁6🤩6🔥3🤔2
Forwarded from Искусственный интеллект. Высокие технологии
Google опубликовала 150-страничный отчёт о Health AI Agents - 7 000 аннотаций, 1 100+ часов экспертов.
Но главное - не метрики, а новая философия дизайна.
Вместо монолитного *«Doctor-GPT»*, Google создаёт Personal Health Agent (PHA) - систему из трёх специализированных агентов:
- Data Science Agent - анализирует носимые устройства и лабораторные данные
- Domain Expert Agent - проверяет медицинские факты и знания
- Health Coach Agent - ведёт диалог, ставит цели, добавляет эмпатию
🧩 Всё связывает оркестратор с памятью: цели, барьеры, инсайты пользователя.
⚡ Результаты
- Превзошёл базовые модели на 10 бенчмарках
- Пользователи предпочли PHA обычным LLM (20 участников, 50 персон)
- Эксперты оценили ответы на 5,7–39 % лучше при сложных медицинских запросах
⚙️ Дизайн-принципы
- Учитывать все потребности пользователя
- Адаптивно комбинировать агентов
- Не спрашивать данные, которые можно вывести
- Минимизировать задержку и сложность
🧠 Протестированные сценарии
- Общие вопросы о здоровье
- Интерпретация данных (носимые устройства, биомаркеры)
- Советы по сну, питанию, активности
- Оценка симптомов (без диагноза)
⚠️ Ограничения и будущее
- Медленнее одиночных агентов (244 с против 36 с)
- Нужны аудит предвзятости, защита данных и регуляторное соответствие
- Следующий шаг - адаптивный стиль общения: эмпатия ↔ ответственность
💡 Вывод
Google показывает путь вперёд: не «супердоктор-бот», а модульные, специализированные агентные команды.
Медицина — лишь первый тест. Дальше: финансы, право, образование, наука.
Google 150 Health AI Agents: https://arxiv.org/pdf/2508.20148
@vistehno
Но главное - не метрики, а новая философия дизайна.
Вместо монолитного *«Doctor-GPT»*, Google создаёт Personal Health Agent (PHA) - систему из трёх специализированных агентов:
- Data Science Agent - анализирует носимые устройства и лабораторные данные
- Domain Expert Agent - проверяет медицинские факты и знания
- Health Coach Agent - ведёт диалог, ставит цели, добавляет эмпатию
🧩 Всё связывает оркестратор с памятью: цели, барьеры, инсайты пользователя.
⚡ Результаты
- Превзошёл базовые модели на 10 бенчмарках
- Пользователи предпочли PHA обычным LLM (20 участников, 50 персон)
- Эксперты оценили ответы на 5,7–39 % лучше при сложных медицинских запросах
⚙️ Дизайн-принципы
- Учитывать все потребности пользователя
- Адаптивно комбинировать агентов
- Не спрашивать данные, которые можно вывести
- Минимизировать задержку и сложность
🧠 Протестированные сценарии
- Общие вопросы о здоровье
- Интерпретация данных (носимые устройства, биомаркеры)
- Советы по сну, питанию, активности
- Оценка симптомов (без диагноза)
⚠️ Ограничения и будущее
- Медленнее одиночных агентов (244 с против 36 с)
- Нужны аудит предвзятости, защита данных и регуляторное соответствие
- Следующий шаг - адаптивный стиль общения: эмпатия ↔ ответственность
💡 Вывод
Google показывает путь вперёд: не «супердоктор-бот», а модульные, специализированные агентные команды.
Медицина — лишь первый тест. Дальше: финансы, право, образование, наука.
Google 150 Health AI Agents: https://arxiv.org/pdf/2508.20148
@vistehno
👍83❤32👏22🤔11🔥9🎉7👌3
Media is too big
VIEW IN TELEGRAM
Создание AI-агентов становится одной из самых востребованных профессий на рынке.
Теперь вы можете научиться этом на курсе.
Курс научит вас реализовывать четыре ключевых паттерна дизайна агентов:
- Reflection - как агент анализирует свои ответы и улучшает их
- Tool use - модель выбирает, какие инструменты использовать (поиск, почта, календарь, код и т.д.)
- **Planning**- ИИ планирует и разбивает задачу на подзадачи
- Multi-agent collaboration - взаимодействие нескольких агентов, как сотрудников в команде
Andrew Ng делает акцент на оценке (evals) и анализе ошибок - ключевых навыках для успешной отладки агентных систем.
В курсе есть практика, где можно создадите deep research-агента, который умеет искать, синтезировать и формировать отчёты, применяя все эти паттерны.
- Все уроки и код на Python
- Очень подробно и пошагало объяснены все вунтренности
- В курсе рассматриваются для самые популярные фреймворками для создания ИИ агентнов
Требование для учащихся - базовые знания Python
@ai_machinelearning_big_data
#AI #AgenticAI #AndrewNg #DeepLearningAI #AIagents
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩87👍38❤24👏15💯9🎉6🙏5🔥3😁2🤬1💘1
Media is too big
VIEW IN TELEGRAM
Мишель Деворе (Michel Devoret), главный научный сотрудник команды Google Quantum AI, стал лауреатом Нобелевской премии по физике 2025 года.
Он разделил награду с Джоном Мартинесом (бывшим сотрудником Google Quantum AI) и Джоном Кларком из Калифорнийского университета в Беркли.
Премия присуждена за исследования макроскопических квантовых эффектов, которые стали фундаментом для создания сверхпроводящих кубитов - ключевой технологии в квантовых компьютерах.
Для Google это исторический момент: теперь в числе сотрудников и выпускников компании уже пять лауреатов Нобелевской премии, включая Демиса Хассабиса и Джеффри Хинтона, отмеченных в 2024 году.
По данным *The Information*, Oracle понесла убытки около $100 млн за прошлый квартал из-за аренды чипов Blackwell.
Маржа серверного проката составила всего около 16%.
Бизнес по аренде GPU оказывается сложным:
скорее всего, дело не в падении спроса, а в сильном давлении на маржу - клиенты активно торгуются и сбивают цены.
theinformation
Модель содержит 8.3 млрд параметров, из которых активно только 1.5 млрд на токен, что даёт качество уровня 3–4B плотных моделей, но при этом она быстрее Qwen3-1.7B.
Модель показала себя отлично на 16 банчмарках:
она обгоняет LFM2-2.6B и модели аналогичного размера, особенно в задачах математики, кода и творческого письма.
huggingface
Deloitte объявила о крупнейшем корпоративном внедрении AI в истории Anthropic - Claude теперь станет рабочим инструментом для 470 000 сотрудников по всему миру.
Компания создаёт отраслевые версии Claude для бухгалтеров и разработчиков, а также откроет Claude Center of Excellence и сертифицирует 15 000 специалистов. В фокусе - прозрачность и соответствие нормам, с опорой на фреймворк Trustworthy AI.
Любопытно, что накануне Deloitte признала, что использовала ИИ в официальном отчёте правительства Австралии, где оказались поддельные цитаты и ссылки, и согласилась вернуть часть контракта на $440 000.
TechCrunch
Пациент Nick Wray стал первым, кто с помощью Neuralink PRIME BCI смог управлять роботизированной рукой напрямую с помощью мозга. Он рассказал, что впервые за многие годы смог сам надеть шляпу, разогреть еду и поесть без помощи.
В проекте участвует и xAI Илонa Маска: система Grok помогает Neuralink усиливать нейроинтерфейс — от преобразования мыслей в текст и ускоренной коммуникации до синтезированного голоса и долгосрочной цели — когнитивного соединения человека и ИИ на бинарном уровне.
Многие задаются вопросом: станет ли Grok 5 шагом к слиянию человеческого сознания и искусственного интеллекта?
Это одно из самых вдохновляющих достижений в истории нейротехнологий — шаг к возвращению физической независимости людям и, возможно, к новой эре взаимодействия человека и ИИ.
Видео
Компания ElevenLabs представила Agent Workflows - инструмент, который позволяет визуально проектировать логику диалогов и взаимодействие агентов на платформе Agents.
Теперь вместо громоздкого единого агента можно создавать Subagents - специализированных подзадачных агентов с собственными промптами, базами знаний и инструментами.
С помощью Workflows можно задавать, когда агент передаёт управление подагенту, а когда подключает человеческого оператора. Это делает систему более гибкой и безопасной.
Кроме того, Workflows обеспечивают надёжное подключение к корпоративным системам, управление бизнес-логикой и умную маршрутизацию диалогов, что помогает снизить затраты, задержки и повысить точность ответов.
elevenlabs
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👏32❤16👍11🎉7🤔3🤩3🏆2🙏1