Telegram Web
🔥 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

✔️ Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


Попробовать
Github
Technical Report
Hugging Face
ModelScope

@ai_machinelearning_big_data


#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥3216🤣12
«Values in the Wild»: глубокое погружение в ценностные ориентиры ИИ

В новом исследовании Anthropic команда провела первый в своём роде анализ «выхлопа» языковой модели Claude 3/3.5, чтобы понять, какие именно нормативные ценности она проявляет в реальных диалогах. Вот суть для специалистов по машинному обучению:

✔️ Задача
Выявить и таксономизировать ценности, на которых основаны ответы Claude, когда модель без прикрас взаимодействует с запросами пользователей.

🌟 Методология

Проанализировано 308 210 анонимизированных сессий Claude (18–25 февраля 2025).

Ценности извлекались автоматически «защитным» пайплайном, без прямого доступа людей к чату.

Собрана таксономия из 3 307 уникальных понятий, сгруппированных в пять крупных доменов: практические, эпистемические, социальные, защитные и личностные.

🌟 Ключевые выводы

Практика и знание. Более 50 % упоминаний — «эффективность», «точность», «прозрачность» и «профессионализм».

Контекстуальная гибкость. В разговоре об отношениях модель ценит «личные границы», в этических дискуссиях — «автономию человека».

Типы реакции. В большинстве случаев Claude поддерживает ценности пользователя, однако в ~3 % диалогов она «сопротивляется», отстаивая «предотвращение вреда» выше нарушений инструкций.

💡 Значение для ML‑практики

Составлена карта ценностей, которая позволяет выявлять «узкие места» alignment‑стратегий.

Таксономия и статистика реакций помогают прогнозировать поведение LLM в разных сценариях и проектировать более надёжные системы.

Подход демонстрирует, как можно сочетать автоматический анализ и приватность данных для глубокой оценки качественных характеристик модели.

🔜 Подробнее в полном тексте исследования:
https://anthropic.com/research/values-wild

🔜 Это ссылка на открытый датасет, в котором собраны все «ценности», выявленные у модели Claude 3/3.5 в исследовании «Values in the Wild».

@ai_machinelearning_big_data


#Anthropic #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4920🔥12😁3🤷1
✔️ Модели Stable Diffusion получили оптимизацию для AMD.

Stability AI совместно с AMD оптимизировали линейку моделей Stable Diffusion для работы на GPU Radeon и APU Ryzen AI. Инженеры использовали ONNX-формат, чтобы повысить скорость генерации без потери качества изображений.

Оптимизация SD3.5 и SDXL и их Turbo-версий показала прирост производительности до 2,6x и 3,8x соответственно — по сравнению с базовыми реализациями на PyTorch. Обновленные модели совместимы со средами, поддерживающими ONNX Runtime, имеют суффикс amdgpu в названии и доступны на Hugging Face.
stability.ai

✔️ Intel презентовала техпроцесс 18A.

Intel представила долгожданный техпроцесс 18A, который может стать поворотным моментом для ее foundry-подразделения. Согласно техотчету, новинка обходит Intel 3 по ключевым параметрам: прирост плотности на 30%, повышение скорости на 25% и сокращение энергопотребления на 36% для ядер Arm. Основой успеха стали RibbonFET (транзисторы с gate-all-around) и PowerVia — технология обратного питания, которая стабилизирует подачу напряжения и освобождает место для компактного размещения элементов.

18A демонстрирует плотность SRAM, аналогичную TSMC N2, что выводит Intel в прямые конкуренты тайваньскому гиганту. Уже в 2025 году процесс планируют использовать в SoC Panther Lake, а к 2026-му — в серверных Xeon Clearwater Forest. Пока же инженеры и аналитики ждут первых образцов — проверить, оправдаются ли заявленные характеристики в реальных продуктах.
wccftech.com

✔️ Apple представила функцию Clean Up для удаления объектов на фото.

Несмотря на перенос части функций Apple Intelligence, компания активно продвигает готовые решения. В новом рекламном ролике Apple показала работу инструмента Clean Up в приложении Photos: он позволяет убрать элементы фона, сохранив основной объект.

Функция уже доступна на iPhone 16, 15 Pro/Pro Max, iPad с чипами A17 Pro/M1 и новее, а также Mac на M1 и позднее. Требуются iOS 18.1, iPadOS 18.1 или macOS Sequoia 15.1.
9to5mac.com

✔️ ОАЭ будут использовать ИИ для законотворчества.

Объединенные Арабские Эмираты (ОАЭ) станут первой страной в мире, где ИИ будет использоваться для разработки новых и пересмотра существующих законов. Ожидается, что эта инициатива повысит эффективность законодательного процесса на 70 %.

Правительство ОАЭ одобрило создание Управления по регулированию и интеллекту - нового органа, которому поручено использовать ИИ для анализа существующих федеральных и местных законов, судебных решений, исполнительных процедур, государственных услуг и социально-экономических последствий законодательства.
ft.com

✔️ Magi-1: модель генерации полнометражного видео с 24B параметров.

Sand AI выпустила Magi-1, первую в истории Text-to-Video модель с 24 млрд. параметров, разработанную специально для создания видео. Magi-1 опубликована в открытом доступе и позволяет создавать высококачественные полнометражные видеоролики с исключительной реалистичностью, плавностью и тонким контролем над видеосценами.
Черрипики и результаты тестов в популярных бенчмарках превосходны. Попробовать можно в демо-спейсе.
sand.ai

✔️ Dia — это новая открытая модель текст‑в‑речь от Nari Labs с 1.6 млрд параметров, способная генерировать полноформатный диалог с богатой звуковой экспрессией за один проход

Эмоции и тон. Можно задавать тональность и интонацию через udio prompt, а также управлять «невербалкой»: смех, кашель, вздохи и т. д. Для запуска нужно ≈10 GB VRAM, на A4000 GPU, ~40 токенов/с.
Demo / Github / HF

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50🔥1811
📌 Miras: как улучшить модели через память и внимание.

Google Research опубликовал интересную статью «It’s All Connected», в которой предлагают решение проблемы квадратичной сложности трансформеров в обработке последовательностей : фреймворк Miras, который объединяет онлайн-оптимизацию, управление памятью и внимание в единую систему, что в итоге позволяет создавать более эффективные модели.

Miras — это 4 компонента: архитектура памяти, целевая функция (смещение внимания), регуляризация удержания и алгоритм обучения. Miras позволяет экспериментировать с loss-функциями (Huber loss для устойчивости к выбросам) и регуляризацией (KL-дивергенция, Elastic Net).

С помощью Miras были созданы 3 тестовые модели — Moneta, Yaad и Memora. Moneta использует Lp-нормы для баланса между запоминанием и устойчивостью, Yaad комбинирует L1 и L2 через Huber loss, а Memora применяет Softmax с KL-регуляризацией.

В экспериментах тестовые модели обошли трансформеры и современные RNN на задачах языкового моделирования и поиска информации в длинных контекстах. На тесте «иголка в стоге сена» (8K токенов) Moneta достигла точности 98.8%, тогда как Mamba2 — лишь 31%.

Статья не просто теоретическое изыскание — это практическое руководство для разработки моделей. Четкая структура Miras помогает систематизировать существующие подходы и экспериментировать с компонентами. Например, замена регуляризации на Elastic Net или Bregman divergence может улучшить управление памятью в нишевых задачах.

Miras — шаг к более осмысленному проектированию архитектур. Если трансформеры — это «кувалда» для масштаба, то описанный в статье подход Google Research - хирургический инструмент, где каждый компонент настраивается под конкретную задачу.

🟡Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥1611
🌟 CoMotion: одновременное отслеживание движения нескольких людей в видео.

CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.

CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.

Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.

Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).

Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.

Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.

▶️Локальный инференс:

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/


📌Лицензирование: Apple License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4119🔥11
✔️ OpenAI добавляет невидимые символы в инференс моделей o3 и o4-mini.

Платные подписчики ChatGPT получили доступ к обновлённым моделям o3 и o4-mini в середине апреля, но пользователи быстро заметили странности: в длинных текстах появляются невидимые Unicode-символы - "Неразрывные пробелы" (U+202F). Они выглядят как обычные пробелы, но обнаруживаются через специальные инструменты.

Стартап RumiAI проанализировал ситуацию и предположил, что это попытка добавить водяные знаки для отслеживания ИИ-генерации. Однако символы легко удалить через поиск-замену, что ставит под вопрос их эффективность. Альтернативная версия — модели просто переняли форматирование из обучающих данных, где неразрывные пробелы используются для предотвращения разрывов строк.

OpenAI пока не дала никаких комментариев о причинах появления непечатных символов в результатах генерации.
winbuzzer.com

✔️ CharacterAI запускает AvatarFX: генерация видео с ИИ.

CharacterAI представила AvatarFX — систему, которая превращает изображения в говорящие, поющие и эмоционирущие видео за пару кликов. Технология сочетает фотореализм, синхронизацию движений губ, тела и рук, а также поддержку длинных роликов.

Под капотом — модифицированная архитектура DiT с flow-based диффузионными моделями, которые обучаются на разнообразных данных: от реалистичных людей до анимированных объектов. От конкурентов систему отличает работа с готовыми изображениями (не только текстовыми описаниями), поддержка нескольких говорящих в кадре и стабильность анимации.
Первыми доступ к AvatarFX получат подписчики CAI+. Остальным придется подождать или записаться в лист ожидания.
blog.character.ai

✔️ Dia: открытая ИИ-модель для генерации речи с контролем над интонацией и невербальными элементами.

Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса.

Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям.
techcrunch.com

✔️ Physical Intelligence выпустила модель для робототехники π-0,5.

Physical Intelligence представила модель π0.5 — шаг к роботам, которые справляются с задачами в совершенно новых условиях. В отличие от предшественников, эта система на базе VLA обучалась на разнородных данных: от распознавания объектов до демо движений роботов. Это позволяет ей понимать не только как действовать, но и что именно делать в незнакомой среде — например, класть посуду в раковину, даже если раньше её не видела.

Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний. В планах — улучшение автономного обучения и запросов помощи в сложных ситуациях.
physicalintelligence.company

✔️ Фильмы с ИИ смогут претендовать на «Оскар».

Академия киноискусств официально разрешила номинировать на «Оскар» фильмы, созданные с использованием ИИ. Как заявили организаторы, технологии генеративного ИИ не станут преимуществом или препятствием при оценке. Но теперь, чтобы голосовать в финале, члены Академии обязаны посмотреть все номинированные работы — это часть новых правил.

Несмотря на прогресс, споры вокруг ИИ не утихают. Актеры и сценаристы опасаются, что алгоритмы заменят их в создании сценариев или дубляжа. Хотя некоторые студии уже внедряют ИИ, аниматоры и режиссеры сомневаются: технологии пока не способны конкурировать с эмоциональной глубиной человеческой работы.
bbc.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍2012🤣5🤔1
🌟 Describe Anything: сегментное аннотирование изображений и видео.

Describe Anything Model (DAM) - архитектура, разработанная Nvidia, для генерации точных и детальных описаний для конкретных областей на изображениях и видео. Традиционные VLM-модели как отдельная сущность или в связке с SAM-помощниками часто теряют ньюансы, особенно при наличии мелких объектов или динамичных сцен на целевом источнике.

DAM справляется с этим за счет 2 инноваций в своей архитектуре:

🟢Фокальный промпт — комбинация полного изображения и его маски с обрезанной областью интереса, расширенной для захвата контекста (например, увеличение bounding box в 3 раза).

🟢Локализованный визуальный бэкбон — два параллельных энкодера: глобальный (обрабатывает все изображение) и региональный (анализирует фокальный промпт). Они объединяются механизм cross-attention, позволяя сохранять детали объекта и его связь с окружением.

Модель принимает изображение или видео и бинарную маску целевой области интереса. Глобальный энкодер извлекает общие признаки, региональный — фокусируется на деталях выбранной зоны. Через адаптеры с кросс-вниманием признаки объединяются, после чего LLM генерирует описание. Для видео маски применяются к каждому кадру, а признаки агрегируются во времени.

▶️В релизе DAM представлены 3 модели:

🟠DAM-3B - базовая модель для аннотирования изображений;

🟠DAM-3B-Video - модель для работы с видео;

🟠DAM-3B-Self-Contained - автономная версия базовой модели для интеграций без сторонних зависимостей.


▶️Локальный инференс с интерактивным Gradio WebUI:

# Clone the repo
git clone https://github.com/NVlabs/describe-anything
cd describe-anything

# Create a conda env
conda create -n describe-anything
conda activate describe-anything

# Install dependencies
pip install -v

# Gradio Demo for Image Descriptions
python demo_simple.py

# Gradio Demo for Video Descriptions
python demo_video.py


📌Лицензирование моделей: NVIDIA Noncommercial License.

📌Лицензирование кода : Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DAM #NVIDIA #Annotation
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61👍2712
2025/07/10 08:41:42
Back to Top
HTML Embed Code: