Главная идея книги - показать, почему и как глубокие нейросети учатся извлекать сжатые, информативные представления сложных данных, и что у них внутри:
📖 Читать онлайн: ma-lab-berkeley.github.io/deep-representation-learning-book
@ai_machinelearning_big_data
#book #deeplearning #representationlearning #ucberkeley #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80❤20🔥17🤔1
Media is too big
VIEW IN TELEGRAM
По слухам, OpenAI разрабатывает Agent Builder - нативную no-code-платформу для создания автономных ИИ-агентов. Если информация подтвердится, этот инструмент сможет заменить целый стек сервисов вроде Zapier, n8n и Vapi, объединив всё в единую экосистему OpenAI.
Первые отзывы называют интерфейс одним из самых плавных и интуитивных среди всех agent-canvas решений.ентов прямо внутри платформы.
testingcatalog
Польский стартап Pathway представил новую ИИ архитектуру под названием Dragon Hatchling (BDH), которая может решить одну из самых сложных проблем ИИ - генерализацию во времени, то есть способность модели учиться из опыта и делать прогнозы, как это делает человек.
Модель строит структуру, похожую на нейронные сети человеческого мозга, которая формируется спонтанно во время обучения и действует как неокортекс, отвечающий за обучение, память и принятие решений.
В отличие от классических трансформеров, BDH использует локальные нейронные связи и геббовское обучение, что делает её более интерпретируемой и устойчивой к изменению данных. При этом она демонстрирует производительность, сопоставимую с моделями GPT-уровня, но требует меньше вычислительных ресурсов.
Разработчики отмечают, что такая архитектура может приблизить ИИ к человеко-подобному мышлению и пониманию, открывая путь к созданию систем, способных на адаптацию и обучение в реальном времени.
arxiv
Всего 3 млрд активных параметров, но по бенчмарками модель не уступает GPT-5-Mini и Claude 4 Sonnet, обгоняя их в задачах STEM, VQA, OCR, Video и Agent-тестах.
Плюс теперь доступны FP8-версии не только 30B, но и гиганта Qwen3-VL-235B-A22B.
API / Github / Попробовать
Исследователи представили небольшую модель с 7 миллиардами параметров, обученную специально для работы с формами и документами. Несмотря на компактный размер и низкую стоимость обучения - всего $196, модель смогла превзойти GPT-4.1 на тысяче задач по извлечению структурированных данных.
Команда использовала синтетические данные, позволяющие модели сохранять «память» между разными частями длинных файлов и правильно связывать имена, даты и значения, находящиеся далеко друг от друга.
Для обучения применялась Low-Rank Adaptation (LoRA) - изменено всего 0,53% весов, и Group Relative Policy Optimization с семантическим вознаграждением и строгой проверкой JSON-ответов.
Результат - 0,573 среднее вознаграждение, 89% корректных JSON-ответов и производительность выше GPT-4.1, при затратах в сотни раз меньших.
arxiv
WSJ сообщает: Nvidia инвестирует $100 млрд в строительство 10 ГВт дата-центров для OpenAI. Это не благотворительность - компания фактически финансирует собственный спрос.
По расчётам аналитиков, на каждые $10 млрд инвестиций OpenAI обязуется купить GPU Nvidia на $35 млрд. Так Nvidia даёт OpenAI дешёвый капитал и гарантирует себе заказы на годы вперёд.
Это часть большой стратегии: компания уже выкупает простаивающие мощности CoreWeave, инвестирует в Intel и xAI, формируя замкнутую экосистему вокруг своих чипов.
Так Nvidia снижает маржу, но получает главное - контроль над всей энергией и инфраструктурой ИИ-мира.
Wsj
Стартап Neuphonic представил новую систему синтеза речи NeuTTS Air - компактную модель, работающую прямо на устройствах без подключения к облаку.
NeuTTS Air способна реалистично воспроизводить речь и клонировать голос по трёхсекундной записи, оставаясь лёгкой и быстрой. Модель выпускается в формате GGML, что позволяет запускать её на компьютерах, смартфонах и даже на Raspberry Pi.
GitHub
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤65👍24🔥13🥱3❤🔥2💘2💋1
Позволяет создать нативные приложенийяпрямо внутри ChatGPT.
Идея простая: теперь не нужно выходить из ChatGPT, чтобы делать привычные вещи.
Можно прямо в чате работать с дизайном в Figma, создавать презентации в Canva, искать жильё на Booking или смотреть курсы на Coursera — всё в одном окне.
Платформа поддерживает авторизацию, оплату и подключение внешних сервисов,
а значит, ChatGPT становится центром, где совмещаются ИИ, приложения и автоматизация задач.
Скоро разработчики (вайбкодеры) смогут добавлять свои приложения и зарабатывать на них через ChatGPT SDK.
По сути это убийца n8n и Zapier.
Это интуитивно понятный**визуальный конструктор**, где можно создавать своих ИИ-агентов без единой строчки кода.
Просто перетаскиваешь блоки, подключаешь MCP и ChatKit — и агент сам ищет файлы, анализирует данные и выполняет задачи.
Инструмент уже доступен всем.
OpenAi умеют в дизайн, должно быть удобно.
Можно уже попробовать: https://platform.openai.com/agent-builder
Вышел из беты, получил интеграцию со Slack и собственный SDK.
На демо агент управлял светом и экраном голосом - без кода.
На презентации заявили, что теперь почти весь их код пишется с помощью Codex
Благодаря Codex разработчики OpenAI стали отправлять на 70% больше pull-request’ов в неделю, чем раньше.
Теперь у кодекса появляется интеграция со Slack и SDK, чтобы разработчики могли встраивать его в свои рабочие процессы.
Прямо в эфире Codex написал код для управления камерой, сам собрал интерфейс и **запустил готовое при
$15 за ввод и $120 за вывод за 1M токенов
Gpt-realtime-mini - на 70% дешевле, подходит для мгновенных ответов и потоковых задач
Можно будет генерировать видео прямо из кода
PS: Agent Builder выглядит действительно интересно - интуитивный, гибкий, инструмент с большим потенциало
м.
А вот насколько полезными окажутся приложения внутри ChatGPT, не особо понятно.
OpenAI не боится экспериментировать.
Они развивают ChatGPT как платформу, ищут
новые варианты захвата рынка и пробуют смелые идеи. Это дорогого стоит.
Их интерфейс просто топ: минимализм, аккуратность, почти в духе Apple. UX - на уровне искусства.
У OpenAI уже более 800 млн активных пользователей в неделю и они обрабатывают 6 миллиардов токенов в минуту!
К концу года число пользователей, похоже, вплотную подойдёт к 1 миллиарду.
Но гонка только начинается.
Google явно готовит ответ - Gemini 3 обещает быть топом. Другие игроки тоже не дремлют.
@ai_machinelearning_big_data
#openai #chatgpt #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍511🔥258❤197🎉132👏104😁77🤔52🤩41🤣15👌13🙈13
Google объявил о запуске новой модели EmbeddingGemma, созданной для работы прямо на устройствах - без подключения к интернету. Модель на 308 миллионов параметров, поддерживает более 100 языков и показывает лучшие результаты среди всех открытых моделей размером до 500 млн параметров по тесту MTEB.
После квантования модель кушает менее 200 МБ оперативной памяти, а генерация эмбеддингов занимает всего около 20 миллисекунд на устройствах с EdgeTPU.
Google внедрил технологию Matryoshka Representation Learning, позволяющую использовать разные размеры векторов - от 768 до 128 - в зависимости от задач и ресурсов устройства. Контекстное окно достигает 2000 токенов.
EmbeddingGemma уже интегрируется с популярными инструментами вроде SentenceTransformers, Llama.cpp, LangChain и Transformers.js, а её веса открыты для использования и коммерческой адаптации.
googleblog
Вышла новая open-source модель Kani-TTS-370M, создающая естественное и выразительное звучание при крайне высокой скорости работы. Модель насчитывает 370 миллионов параметров и оптимизирована под потребительские GPU, включая RTX 3060, где она обеспечивает реальное время генерации речи.
Kani-TTS построена на сочетании NanoCodec и LFM2-350M, что обеспечивает компактность и качество, сравнимое с крупными нейронными TTS-системами. Разработчики использовали современные нейросетевые методы синтеза речи, чтобы добиться максимально естественной интонации и чистоты звучания.
Главный акцент сделан на эффективности и универсальности - модель легко разворачивается локально, подходит для встраивания в ассистентов, игровых персонажей и офлайн-озвучку, не требуя облачных вычислений.
HF
По оценкам Adobe Analytics, объем онлайн-продаж в США в праздничный сезон 2025 года достигнет $253,4 млрд, что на 5,3 % больше, чем в прошлом году. AI-трафик при этом вырастет на 520 %, особенно в последние 10 дней перед Днём благодарения.
Почти половина американцев намерены воспользоваться AI-инструментами: 53 % - для поиска товаров, 40 %- для рекомендаций, 36 % — для поиска выгодных предложений, 30 % — чтобы вдохновиться идеями подарков.
Мобильные устройства останутся доминирующей платформой - 56,1 % транзакций пройдут с телефона. Среди драйверов роста - скидки (среднее снижение цен до 28 %), сервисы «купи сейчас, заплати позже» и активность в соцсетях, чья рекламная отдача вырастет на 51 %.
techcrunch
Модель обучается не на 3D-структурах, а чисто на видео и многовидовых данных, что делает её универсальной и масштабируемой.
Kaleido превосходит все предыдущие генеративные модели в задачах с малым числом видов и впервые достигает качества рендеринга уровня InstantNGP в zero-shot режиме. Это шаг к гибкому world modeling, способному как точно реконструировать реальность, так и дорисовывать недостающие детали.
shikun
OpenAI и AMD объявили масштабное сотрудничество: по условиям соглашения OpenAI развернёт 6 гигаватт графических процессоров AMD, начиная с первой волны - 1 гигаватт Instinct MI450 во второй половине 2026 года.
AMD, чтобы выровнять интересы, выдала OpenAI варрант на 160 млн своих акций, который будет реализован по мере достижения этапов развертывания и роста стоимости компании, что может превратить его в ~10 % долю.
Соглашение может принести AMD десятки миллиардов долларов дохода, а также усилить её позиции на рынке чипов для искусственного интеллекта.
Этот шаг позволяет OpenAI диверсифицировать аппаратные поставки и снизить зависимость от одного производителя, а также закладывает мощную основу для масштабных AI-инфраструктур следующих лет.
openai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍110🔥35❤25🤩13👏7🎉5💘2
One Day Offer для ML-разработчиков — это знак! Знак, чтобы всего за один день получить оффер мечты! 👌
Регистрируйтесь по ссылке, если вы:
✔️ Горите идеями в области речевых технологий.
✔️ Можете похвастаться опытом разработки ML-моделей/пайплайнов.
✔️ Хотите изменить мир.
Встречаемся 11 октября — регистрация здесь!
Регистрируйтесь по ссылке, если вы:
✔️ Горите идеями в области речевых технологий.
✔️ Можете похвастаться опытом разработки ML-моделей/пайплайнов.
✔️ Хотите изменить мир.
Встречаемся 11 октября — регистрация здесь!
👌101🎉26🔥20❤15😁11🤩11👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Jules - это ИИ, который умеет писать код, исправлять ошибки и создавать тесты для ваших проектов.
Он подключается к GitHub или другому репозиторию, анализирует кодовую базу и выполняет задачи, которые вы ему задаёте.
С помощью Jules Tools можно запускать и управлять этим агентом напрямую через терминал, без браузера.
Пример, вводите:
jules remote new --session "fix login bug"
После запуска команда создаёт виртуальную машину, клонирует репозиторий, решает задачу и отправляет pull request с готовым исправлением.
Что интересного:
- Командная строка и API для управления агентом
- Асинхронные задачи и параллельное выполнение
- Скрипты и автоматизация (через CI, cron, pipelines)
- Память и адаптация под ваш стиль кода
- Безопасное хранение ключей и токенов
- Интерактивный интерфейс в терминале (TUI) с отображением статуса задач в реальном времени
TUI-режим напоминает веб-панель, но работает прямо в консоли, позволяя быстро запускать, отслеживать и управлять сессиями.
Jules можно интегрировать с Slack или системами сборки - агент сам создаёт и выполняет задачи, пока вы занимаетесь другими делами.
Если агент сталкивается с проблемой, то приостанавливает работу и запрашивает помощь, а не «угадывает» решение.
Обе утилиты - Jules и Gemini CLI - работают на Gemini 2.5 Pro, но Jules ориентирован на короткие и точные задачи, а Gemini CLI - на длительную совместную работу.
Бесплатная версия позволяет запускать 15 задач в день (до 3 одновременно).
Платные тарифы - $19.99 и $124.99 - дают лимиты до 100 и 300 задач.
Google также планирует добавить поддержку GitLab, Bitbucket и локальных проектов без Git.
@ai_machinelearning_big_data
#Google #Jules #AI #CodingAgent #Gemini25Pro #Automation
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥103👍22❤20🎉12👏7😁6🤩5🥰2🤣2🫡2
У вас есть 404 секунды, чтобы разобраться, что такое Model Context Protocol (MCP) и почему его уже называют новым стандартом для AI-разработки
MCP — это опенсорсный протокол, который позволяет LLM работать с IDE, базами данных, таск-трекерами и даже мессенджерами по единому стандарту.
Больше не нужно писать десятки отдельных интеграций — один протокол закрывает все сценарии для интеграций с LLM.
В новом выпуске «404 секунды от Yandex Cloud»:
— как MCP упрощает жизнь разработчикам;
— почему SourceCraft уже добавил поддержку протокола в России.
Выпуск вышел совсем недавно на YouTube и VK Видео, будьте в курсе первыми.
MCP — это опенсорсный протокол, который позволяет LLM работать с IDE, базами данных, таск-трекерами и даже мессенджерами по единому стандарту.
Больше не нужно писать десятки отдельных интеграций — один протокол закрывает все сценарии для интеграций с LLM.
В новом выпуске «404 секунды от Yandex Cloud»:
— как MCP упрощает жизнь разработчикам;
— почему SourceCraft уже добавил поддержку протокола в России.
Выпуск вышел совсем недавно на YouTube и VK Видео, будьте в курсе первыми.
👍97👏21🤓15❤13💯9🤣9🤩6😍2😁1🥱1
Модель умеет рассуждать на основе изображений, понимать сложные визуально-текстовые задачи и поддерживает мультиязычные кейсы.
Ключевые особенности:
- Visual Reasoning - глубокое понимание изображений и сцен
- Multilingual Support - работа с несколькими языками
- Visual Dialogue - позволяет весть диалог на основе изображения и текста
- Thinking-on-Image - рассуждение на уровне визуальных деталей
HunyuanVision-1.5 демонстрирует продвинутые способности в задачах анализа, генерации и рассуждения. Работает шустро, русский понимает, но не без косяков.
Модель доступна для использования через Tencent Cloud API и LMArena (Direct Chat).
Полный технический отчёт и веса обещают к релизу позже в октябре. Ждемс.
@ai_machinelearning_big_data
#Tencent #llm #ml #Hunyuan #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🎉82❤35🔥20👏16😁12🤩12🥰3👌3💘2