Команда Fundamental AI Research (FAIR) компании Марка Цукерберга представила серию новых разработок: методики и модели, улучшающие компьютерное зрение, 3D-локализацию объектов и совместное обучение языковых агентов. Все модели, техотчеты, датасеты и код этих проектов уже доступны на платформах Hugging Face и GitHub.
Perception Encoder - новый виток развития в сфере обработки визуальной информации. Модель, обученная с помощью этой методики на масштабных данных, превосходит аналоги в задачах классификации изображений и видео, включая сложные сценарии — распознавание ската, зарывшегося в морское дно, или крошечной птицы на заднем плане снимка. Благодаря интеграции с LLM, Encoder улучшает ответы на визуальные вопросы, описание сцен и понимание пространственных отношений между объектами.
Для задач, требующих анализа видео и текста, Meta выпустила Perception Language Model (PLM). Ее обучали на 2,5 млн. новых аннотированных видеозаписей — это крупнейший датасет для понимания действий и контекста в динамике. PLM доступна в трёх вариантах (1, 3 и 8 млрд параметров). Дополнительный бонус — PLM-VideoBench, бенчмарк для оценки тонкого понимания сцен, который заполняет пробелы существующих тестов.
Как заставить робот найти красную чашку на столе или вазу возле телевизора? Locate 3D решает эту задачу через анализ 3D-точечных облаков и текстовых подсказок. Модель учитывает пространственные связи и контекст, отличая «вазу у TV» от «вазы на столе». В основе — трехэтапный пайплайн: предобработка данных, кодирование 3D-сцены и декодирование запроса. Для обучения использовали 130 тыс. аннотаций из ARKitScenes и ScanNet, что вдвое увеличило объём доступных данных для локализации объектов.
Dynamic Byte Latent Transformer - архитектура, которая работает на уровне байтов, а не токенов, что повышает устойчивость к ошибкам, ускоряет обработку и "отменяет" необходимость токенизации для масштабирования. На тесте CUTE модель показывает преимущество в +55 пунктов против традиционных подходов.
Совместное решение задач — следующий этап развития ИИ. Collaborative Reasoner — это фреймворк, где два агента ведут диалог, чтобы прийти к общему решению. Они могут спорить, аргументировать и согласовывать ответы на сложные вопросы. Для обучения используют синтетические диалоги, которые генерирует сама модель. Результаты впечатляют: на некоторых задачах совместная работа даёт прирост эффективности до 29% по сравнению с одиночным агентом.
@ai_machinelearning_big_data
#AI #ML #LLM #CV #NLP #FAIR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66🔥29❤25
С 31 марта по 4 апреля 2025 года на Kaggle прошел ряд интенсивов по генеративному ИИ, теперь все материалы с доступны для самостоятельного обучения.
Изучите эволюцию больших языковых моделей (LLM), от трансформеров до методов ускорения инференса.
Описание техник создания эффективных промптов для взаимодействия с ИИ.
Вы научитесь использовать API LLM, для создания интерактивных приложений.
Реализуйте проекты с использованием Retrieval-Augmented Generation (RAG) и семантического поиска.
Настройте векторные базы данных для эффективного хранения и поиска информации.
Примените эмбеддинги для улучшения качества генерации текста.
Разработайте персонализированных ИИ-ассистентов, способных отвечать на сложные запросы.
Используйте передовые методы генерации для создания реалистичных диалогов.
Примените полученные знания в финальном проекте, продемонстрировав свои навыки в области генеративного ИИ.
🧠 Примеры проектов:
- AI Health Assistant: - Персонализированный медицинский помощник, использующий RAG и семантический поиск для предоставления точной информации.
Kaggle
- NewsGenius AI: Интеллектуальный агрегатор новостей, анализирующий и обобщающий актуальные события.
🔗 Курс
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥103👍35❤29🥰10
InstructPipe — это AI-ассистент, который преобразует текстовые команды в визуальные блок-схемы, представляющие собой пайплайны машинного обучения.
Система использует два модуля больших языковых моделей (LLM) и интерпретатор кода для генерации псевдокода и его визуализации в редакторе графов.
Это low-code подход: вы просто соединяете готовые компоненты (ноды) без написания кодп.
@ai_machinelearning_big_data
#Google #InstructPipe
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤85👍52🔥27🙊9
Пользователи ChatGPT применяют новые возможности анализа изображений o3 и o4-mini для определения местоположения, изображенного на фотографиях. Модели позволяют проводить детальный визуальный анализ изображений, чтобы определить местоположение на основе визуальных признаков без метаданных.
Тенденция, набирающая популярность в соцсетях, заключается в том, что пользователи загружают фотографии в ChatGPT и предлагают ИИ сыграть в игру, похожую на GeoGuessr, где он угадывает местоположение по изображению. Способность ИИ точно определять местоположение вызывает тревогу по поводу возможного злоупотребления и риска домогательства к людям через их фото в социальных сетях.
techradar.com
Google представила Gemma 3 QAT — новое поколение открытых моделей с квантованием, которое позволяет запускать их на обычных GPU. Благодаря Quantization-Aware Training (QAT) параметры моделей сжимаются в 4 раза (до 4 бит) без серьезной потери качества. Например, 27B-версия занимает всего 14 ГБ памяти вместо 54 ГБ, что делает ее доступной для RTX 3090, 12B работает на ноутбучных GPU RTX 4060, а компактные 4B и 1B версии — даже на смартфонах.
Модели совместимы с Ollama, LM Studio, MLX для Apple Silicon и llama.cpp. На Hugging Face и Kaggle доступны квантованные варианты в форматах Q4_0 и int4.
developers.googleblog.com
Netflix экспериментирует с новой функцией поиска на базе OpenAI, способной понимать естественный язык. Вместо стандартных запросов по жанрам или актерам пользователи смогут искать контент, описывая свое настроение или конкретные предпочтения простыми словами, например, «фильмы для грустного вечера». Тест запущен в Австралии и Новой Зеландии для iOS-устройств, а в ближайшие месяцы дойдет до США.
macrumors.com
IBM выпустила новое поколение моделей Granite 3.3, в котором нибольший интерес представляет Granite Speech 3.3 8B — компактная система для преобразования речи в текст (ASR) и перевода (AST). Модель, построенная на базе Instruct 8B, показала повышенную точность и меньшее количество ошибок в транскрипции, обгоняя даже закрытые аналоги вроде GPT-4o и Gemini 2.0 Flash.
В опенсорс опубликованы версии 8B и 2B, которые можно дорабатывать под конкретные задачи. Granite Speech поддерживает перевод с английского на 7 языков, а для интеграции RAG-функций IBM выпустила LoRA-адаптеры в рамках проекта Granite Experiments на Hugging Face.
Пока аудиоэнкодер работает только с английским, но в планах — мультиязычная поддержка, улучшение качества данных и добавление распознавания эмоций в речи. Параллельно компания уже тренирует Granite 4.0 с увеличенной скоростью и длиной контекста.
ibm.com
Together AI представила Open Deep Research — фреймворк для многошагового веб-поиска с открытым кодом. В отличие от обычных поисковиков, инструмент генерирует структурированные отчеты с цитатами, а не списки ссылок. Архитектура системы прозрачна: код, датасеты и модели доступны всем, а в основе — решения от Alibaba, Llama и DeepSeek.
Работает инструмент в 4 этапа: планирование, сбор данных через API Tavily, проверка и формирование ответа. Готовые отчtты выводятся в HTML с графиками (Mermaid JS) и иллюстрациями, созданными в Flux. Есть даже режим подкаста — текст озвучивается моделями Cartesia’s Sonic.
Together AI сделала систему модульной — разработчики могут менять модели, источники данных или добавлять форматы.
together.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍82❤26🔥21🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Новая технология от Hunyuan, превращающая статичные изображения в реалистичную анимацию с беспрецедентной чёткостью и стабильностью!
🆕 Что нового?
1⃣ Статичное изображение превращается → живое видео
2⃣ Высокая реалистичность: Implicit Control + Stable Video Diffusion
3⃣ Плавность и сверхчёткая детализация в анимации лица и головы
Легко адаптируется под любые стили изображений.
Анимация создается по одному фото, нужен только видео-референс в качестве шаблона для генерации.
✅ Работает в один клик
✅ Синхронные мимика и движения головы
✅ Сохраняется черте даже при смене стиля
#Hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71👍57❤19🤣8🆒6🥱2
Объемная и интересная статья Sebastian Raschka, автора книги "
Build a Large Language Model From Scratch
" о тенденциях и проблемах современных методов обучения LLM через призму RL.В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.
Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.
Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).
Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.
Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.
Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.
Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.
Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)
В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.
@ai_machinelearning_big_data
#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79❤25🥰7🔥5🤣3