SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.
- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.
На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.
▪ Попробовать
▪ Github
▪ Technical Report
▪ Hugging Face
▪ ModelScope
@ai_machinelearning_big_data
#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🔥32❤16🤣12
✨ «Values in the Wild»: глубокое погружение в ценностные ориентиры ИИ
В новом исследовании Anthropic команда провела первый в своём роде анализ «выхлопа» языковой модели Claude 3/3.5, чтобы понять, какие именно нормативные ценности она проявляет в реальных диалогах. Вот суть для специалистов по машинному обучению:
✔️ Задача
Выявить и таксономизировать ценности, на которых основаны ответы Claude, когда модель без прикрас взаимодействует с запросами пользователей.
🌟 Методология
Проанализировано 308 210 анонимизированных сессий Claude (18–25 февраля 2025).
Ценности извлекались автоматически «защитным» пайплайном, без прямого доступа людей к чату.
Собрана таксономия из 3 307 уникальных понятий, сгруппированных в пять крупных доменов: практические, эпистемические, социальные, защитные и личностные.
🌟 Ключевые выводы
Практика и знание. Более 50 % упоминаний — «
Контекстуальная гибкость. В разговоре об отношениях модель ценит «личные границы», в этических дискуссиях — «автономию человека».
Типы реакции. В большинстве случаев Claude поддерживает ценности пользователя, однако в ~3 % диалогов она «сопротивляется», отстаивая «предотвращение вреда» выше нарушений инструкций.
💡 Значение для ML‑практики
Составлена карта ценностей, которая позволяет выявлять «узкие места» alignment‑стратегий.
Таксономия и статистика реакций помогают прогнозировать поведение LLM в разных сценариях и проектировать более надёжные системы.
Подход демонстрирует, как можно сочетать автоматический анализ и приватность данных для глубокой оценки качественных характеристик модели.
🔜 Подробнее в полном тексте исследования:
https://anthropic.com/research/values-wild
🔜 Это ссылка на открытый датасет, в котором собраны все «ценности», выявленные у модели Claude 3/3.5 в исследовании «Values in the Wild».
@ai_machinelearning_big_data
#Anthropic #Claude
В новом исследовании Anthropic команда провела первый в своём роде анализ «выхлопа» языковой модели Claude 3/3.5, чтобы понять, какие именно нормативные ценности она проявляет в реальных диалогах. Вот суть для специалистов по машинному обучению:
Выявить и таксономизировать ценности, на которых основаны ответы Claude, когда модель без прикрас взаимодействует с запросами пользователей.
Проанализировано 308 210 анонимизированных сессий Claude (18–25 февраля 2025).
Ценности извлекались автоматически «защитным» пайплайном, без прямого доступа людей к чату.
Собрана таксономия из 3 307 уникальных понятий, сгруппированных в пять крупных доменов: практические, эпистемические, социальные, защитные и личностные.
Практика и знание. Более 50 % упоминаний — «
эффективность
», «точность
», «прозрачность
» и «профессионализм
».Контекстуальная гибкость. В разговоре об отношениях модель ценит «личные границы», в этических дискуссиях — «автономию человека».
Типы реакции. В большинстве случаев Claude поддерживает ценности пользователя, однако в ~3 % диалогов она «сопротивляется», отстаивая «предотвращение вреда» выше нарушений инструкций.
💡 Значение для ML‑практики
Составлена карта ценностей, которая позволяет выявлять «узкие места» alignment‑стратегий.
Таксономия и статистика реакций помогают прогнозировать поведение LLM в разных сценариях и проектировать более надёжные системы.
Подход демонстрирует, как можно сочетать автоматический анализ и приватность данных для глубокой оценки качественных характеристик модели.
https://anthropic.com/research/values-wild
@ai_machinelearning_big_data
#Anthropic #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49❤20🔥12😁3🤷1
Stability AI совместно с AMD оптимизировали линейку моделей Stable Diffusion для работы на GPU Radeon и APU Ryzen AI. Инженеры использовали ONNX-формат, чтобы повысить скорость генерации без потери качества изображений.
Оптимизация SD3.5 и SDXL и их Turbo-версий показала прирост производительности до 2,6x и 3,8x соответственно — по сравнению с базовыми реализациями на PyTorch. Обновленные модели совместимы со средами, поддерживающими ONNX Runtime, имеют суффикс
amdgpu
в названии и доступны на Hugging Face.stability.ai
Intel представила долгожданный техпроцесс 18A, который может стать поворотным моментом для ее foundry-подразделения. Согласно техотчету, новинка обходит Intel 3 по ключевым параметрам: прирост плотности на 30%, повышение скорости на 25% и сокращение энергопотребления на 36% для ядер Arm. Основой успеха стали RibbonFET (транзисторы с gate-all-around) и PowerVia — технология обратного питания, которая стабилизирует подачу напряжения и освобождает место для компактного размещения элементов.
18A демонстрирует плотность SRAM, аналогичную TSMC N2, что выводит Intel в прямые конкуренты тайваньскому гиганту. Уже в 2025 году процесс планируют использовать в SoC Panther Lake, а к 2026-му — в серверных Xeon Clearwater Forest. Пока же инженеры и аналитики ждут первых образцов — проверить, оправдаются ли заявленные характеристики в реальных продуктах.
wccftech.com
Несмотря на перенос части функций Apple Intelligence, компания активно продвигает готовые решения. В новом рекламном ролике Apple показала работу инструмента Clean Up в приложении Photos: он позволяет убрать элементы фона, сохранив основной объект.
Функция уже доступна на iPhone 16, 15 Pro/Pro Max, iPad с чипами A17 Pro/M1 и новее, а также Mac на M1 и позднее. Требуются iOS 18.1, iPadOS 18.1 или macOS Sequoia 15.1.
9to5mac.com
Объединенные Арабские Эмираты (ОАЭ) станут первой страной в мире, где ИИ будет использоваться для разработки новых и пересмотра существующих законов. Ожидается, что эта инициатива повысит эффективность законодательного процесса на 70 %.
Правительство ОАЭ одобрило создание Управления по регулированию и интеллекту - нового органа, которому поручено использовать ИИ для анализа существующих федеральных и местных законов, судебных решений, исполнительных процедур, государственных услуг и социально-экономических последствий законодательства.
ft.com
Sand AI выпустила Magi-1, первую в истории Text-to-Video модель с 24 млрд. параметров, разработанную специально для создания видео. Magi-1 опубликована в открытом доступе и позволяет создавать высококачественные полнометражные видеоролики с исключительной реалистичностью, плавностью и тонким контролем над видеосценами.
Черрипики и результаты тестов в популярных бенчмарках превосходны. Попробовать можно в демо-спейсе.
sand.ai
Эмоции и тон. Можно задавать тональность и интонацию через udio prompt, а также управлять «невербалкой»: смех, кашель, вздохи и т. д. Для запуска нужно ≈10 GB VRAM, на A4000 GPU, ~40 токенов/с.
Demo / Github / HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50🔥18❤11
Google Research опубликовал интересную статью «It’s All Connected», в которой предлагают решение проблемы квадратичной сложности трансформеров в обработке последовательностей : фреймворк Miras, который объединяет онлайн-оптимизацию, управление памятью и внимание в единую систему, что в итоге позволяет создавать более эффективные модели.
Miras — это 4 компонента: архитектура памяти, целевая функция (смещение внимания), регуляризация удержания и алгоритм обучения. Miras позволяет экспериментировать с loss-функциями (Huber loss для устойчивости к выбросам) и регуляризацией (KL-дивергенция, Elastic Net).
С помощью Miras были созданы 3 тестовые модели — Moneta, Yaad и Memora. Moneta использует Lp-нормы для баланса между запоминанием и устойчивостью, Yaad комбинирует L1 и L2 через Huber loss, а Memora применяет Softmax с KL-регуляризацией.
В экспериментах тестовые модели обошли трансформеры и современные RNN на задачах языкового моделирования и поиска информации в длинных контекстах. На тесте «иголка в стоге сена» (8K токенов) Moneta достигла точности 98.8%, тогда как Mamba2 — лишь 31%.
Статья не просто теоретическое изыскание — это практическое руководство для разработки моделей. Четкая структура Miras помогает систематизировать существующие подходы и экспериментировать с компонентами. Например, замена регуляризации на Elastic Net или Bregman divergence может улучшить управление памятью в нишевых задачах.
Miras — шаг к более осмысленному проектированию архитектур. Если трансформеры — это «кувалда» для масштаба, то описанный в статье подход Google Research - хирургический инструмент, где каждый компонент настраивается под конкретную задачу.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥16❤11
CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.
CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой
tracking by attention
позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели
ConvNextV2
. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).
Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.
Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.
# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion
# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion
# Install dependencies
pip install -e
# Download models
bash get_pretrained_models.sh
# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/
@ai_machinelearning_big_data
#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤19🔥11
Платные подписчики ChatGPT получили доступ к обновлённым моделям o3 и o4-mini в середине апреля, но пользователи быстро заметили странности: в длинных текстах появляются невидимые Unicode-символы - "Неразрывные пробелы" (U+202F). Они выглядят как обычные пробелы, но обнаруживаются через специальные инструменты.
Стартап RumiAI проанализировал ситуацию и предположил, что это попытка добавить водяные знаки для отслеживания ИИ-генерации. Однако символы легко удалить через поиск-замену, что ставит под вопрос их эффективность. Альтернативная версия — модели просто переняли форматирование из обучающих данных, где неразрывные пробелы используются для предотвращения разрывов строк.
OpenAI пока не дала никаких комментариев о причинах появления непечатных символов в результатах генерации.
winbuzzer.com
CharacterAI представила AvatarFX — систему, которая превращает изображения в говорящие, поющие и эмоционирущие видео за пару кликов. Технология сочетает фотореализм, синхронизацию движений губ, тела и рук, а также поддержку длинных роликов.
Под капотом — модифицированная архитектура DiT с flow-based диффузионными моделями, которые обучаются на разнообразных данных: от реалистичных людей до анимированных объектов. От конкурентов систему отличает работа с готовыми изображениями (не только текстовыми описаниями), поддержка нескольких говорящих в кадре и стабильность анимации.
Первыми доступ к AvatarFX получат подписчики CAI+. Остальным придется подождать или записаться в лист ожидания.
blog.character.ai
Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса.
Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям.
techcrunch.com
Physical Intelligence представила модель π0.5 — шаг к роботам, которые справляются с задачами в совершенно новых условиях. В отличие от предшественников, эта система на базе VLA обучалась на разнородных данных: от распознавания объектов до демо движений роботов. Это позволяет ей понимать не только как действовать, но и что именно делать в незнакомой среде — например, класть посуду в раковину, даже если раньше её не видела.
Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний. В планах — улучшение автономного обучения и запросов помощи в сложных ситуациях.
physicalintelligence.company
Академия киноискусств официально разрешила номинировать на «Оскар» фильмы, созданные с использованием ИИ. Как заявили организаторы, технологии генеративного ИИ не станут преимуществом или препятствием при оценке. Но теперь, чтобы голосовать в финале, члены Академии обязаны посмотреть все номинированные работы — это часть новых правил.
Несмотря на прогресс, споры вокруг ИИ не утихают. Актеры и сценаристы опасаются, что алгоритмы заменят их в создании сценариев или дубляжа. Хотя некоторые студии уже внедряют ИИ, аниматоры и режиссеры сомневаются: технологии пока не способны конкурировать с эмоциональной глубиной человеческой работы.
bbc.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍20❤12🤣5🤔1
Describe Anything Model (DAM) - архитектура, разработанная Nvidia, для генерации точных и детальных описаний для конкретных областей на изображениях и видео. Традиционные VLM-модели как отдельная сущность или в связке с SAM-помощниками часто теряют ньюансы, особенно при наличии мелких объектов или динамичных сцен на целевом источнике.
DAM справляется с этим за счет 2 инноваций в своей архитектуре:
Модель принимает изображение или видео и бинарную маску целевой области интереса. Глобальный энкодер извлекает общие признаки, региональный — фокусируется на деталях выбранной зоны. Через адаптеры с кросс-вниманием признаки объединяются, после чего LLM генерирует описание. Для видео маски применяются к каждому кадру, а признаки агрегируются во времени.
# Clone the repo
git clone https://github.com/NVlabs/describe-anything
cd describe-anything
# Create a conda env
conda create -n describe-anything
conda activate describe-anything
# Install dependencies
pip install -v
# Gradio Demo for Image Descriptions
python demo_simple.py
# Gradio Demo for Video Descriptions
python demo_video.py
@ai_machinelearning_big_data
#AI #ML #DAM #NVIDIA #Annotation
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61👍27❤12