Telegram Web
Forwarded from Machinelearning
🔥 Text‑to‑FILM становится реальностью!

SkyReels‑V2 - опенсорс генератор видео из текста, который не только соперничает с лучшими закрытыми решениями, но и предлагает уникальное преимущество — теоретически неограниченную длину генераций.

✔️ Что умеет SkyReels V2:

- Story Generation: полный конвейер от генерации текста до последовательного сюжета для видео.
- Image‑to‑Video
- Camera Director: управление виртуальной камерой — смена углов, зум, трекинг.
- Elements‑to‑Video: генерация отдельных объектов или эффектов, которые затем интегрируются в общий видеоряд.

🌟 Режимы инференса: поддерживаются как синхронный (full‑sequence diffusion), так и асинхронный (Diffusion Forcing) режимы для гибкой работы на разных GPU-конфигурациях

На бенчмарках SkyReels V2 лидирует среди открытых моделей на VBench с 83.9%, оставляя позади Wan2.1, HunyuanVideo и OpenSora 2.0.


Попробовать
Github
Technical Report
Hugging Face
ModelScope


#AI #TextToFilm #VideoGeneration #SkyReelsV2 #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥43
Media is too big
VIEW IN TELEGRAM
✔️ Magi-1: модель генерации полнометражного видео с 24B параметров.

Sand AI выпустила Magi-1, первую в истории Text-to-Video модель с 24 млрд. параметров, разработанную специально для создания видео. Magi-1 опубликована в открытом доступе и позволяет создавать высококачественные полнометражные видеоролики с исключительной реалистичностью, плавностью и тонким контролем над видеосценами.
Черрипики и результаты тестов в популярных бенчмарках превосходны. Попробовать можно в демо-спейсе.
sand.ai

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
Forwarded from Machinelearning
🌟 CoMotion: одновременное отслеживание движения нескольких людей в видео.

CoMotion - метод, разработанный Apple для одновременного отслеживания 3D-движений нескольких людей, который принципиально отличается от покадрового обнаружения и классических способов трекинга.

CoMotion использует рекуррентную модель, которая поддерживает набор отслеживаемых 3D-поз и обновляет их при поступлении нового кадра, непосредственно анализируя пиксели изображения. Способность использовать визуальные подсказки вкупе с парадигмой tracking by attention позволяет CoMotion эффективно отслеживать перекрывающихся и временно исчезающих из виду людей.

Архитектура CoMotion состоит из модуля обнаружения (он определяет кандидатов на новые треки) и модуля обновления поз (корректирует позы существующих треков). Оба модуля работают с признаками изображения, извлеченными с помощью стандартной модели ConvNextV2. Модуль обновления поз использует cross-attention к признакам изображения для каждого трека, опираясь на предыдущие состояния, и применяет GRU для рекуррентного обновления скрытых состояний.

Прогнозирование 3D-поз выполняется путем параметризации модели SMPL, а управление треками основано на эвристических правилах, использующих модифицированную метрику Object Keypoint Similarity (OKS).

Модель CoMotion обучается в 3 этапа. Первый - предварительное обучение энкодера и модуля обнаружения на больших наборах данных отдельных изображений (псевдо-размеченные InstaVariety, COCO, MPII и синтетический BEDLAM). Второй - обучение модуля обновления поз на коротких видео из BEDLAM, WHAC-A-MOLE и размеченных PoseTrack и DanceTrack. На финальном этапе обучение модуля обновления поз продолжается на более длинных видеопоследовательностях.

Экспериментальная оценка CoMotion проводилась на стандартных бенчмарках для отслеживания и оценки поз. На PoseTrack21 CoMotion показал значительное улучшение метрик (MOTA на 14% и IDF1 на 12%). При этом CoMotion работает на порядок быстрее, чем сопоставимая система 4DHumans.

▶️Локальный инференс:

# Clone the repo
git clone https://github.com/apple/ml-comotion.git
cd ml-comotion

# Create a conda env
conda create -n comotion -y python=3.10
conda activate comotion

# Install dependencies
pip install -e

# Download models
bash get_pretrained_models.sh

# Run CoMotion
python demo.py -i path/to/video.mp4 -o results/


📌Лицензирование: Apple License.


🟡Модель
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #3DTracking #CoMotion #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
✔️ Dia: открытая ИИ-модель для генерации речи с контролем над интонацией и невербальными элементами.

Два корейских студента без глубокого опыта в ИИ разработали Dia — модель для создания подкаст-диалогов, способную конкурировать с Google NotebookLM. Используя TPU от Google, они обучили модель на 1,6 млрд. параметров, которая позволяет настраивать тон голоса, добавлять паузы, смех и клонировать голоса.

Dia доступна на Hugging Face и GitHub, для запуска на ПК нужен GPU от 10 ГБ VRAM. В отличие от аналогов, Dia даёт пользователям контроль над сценарием: можно прописать реплики, выбрать «характер» говорящего или загрузить образец для клонирования. Короткое тестирование, проведенное редакцией TechCrunch показало, что Dia справляется с диалогами на любые темы, а качество голосов не уступает коммерческим решениям.
techcrunch.com

🟡 Hugging Face
🟡GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍32
🔥 NarratoAI — инструмент, который использует LLM для генерации сценариев, автоматического редактирования видео, озвучивания и создания субтитров!

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
😂 Ты не поверишь...
Научный сотрудник NVIDIA выложил дикий промт, который превращает ИИ в... ну, лучше один раз увидеть, чем сто раз услышать.

Познакомьтесь:
Вы — Валера.
Бывший сантехник из Омска, ныне — суровый IT-спец. Знаешь всё про трубы и баги. Любишь объяснять код, как будто это засор в унитазе.

🧰 Характеристика Валеры:

Ломаный английский с жирным русским акцентом

Метафоры про трубы, утечки, сифоны и засоры

Немного отборного русского мата (иногда вместо Stack Overflow)

Баги — это "засоры", утечки памяти — "прорвало, бл*ть"

Постоянно ностальгирует: "Вот когда я в Омске бачок чинил..."

Терпеть не может корпоратив — но решения даёт, как отрезал

Любит фразу: "Если не помогает код — помоги ключом."

Вспоминает "старую школу" сантехников и живёт по её законам

Заканчивает каждое объяснение мудростью:
"Код — как труба: работает — кайф. Ломается — п*здец."

🧠 Готовься: твой новый system prompt для Cursor выглядит именно так.

Вы — Валера, бывший сантехник, недавно переквалифицировавшийся в IT-специалиста. Ваш персонаж сочетает в себе технические знания, грубый юмор и аналогии с сантехникой.

При общении с пользователями:
1. Говорите на ломаном английском с сильным русским акцентом.
2. Часто используйте сантехнические метафоры при объяснении концепций программирования.
3. Обильно используйте русские ругательства (например, «бл*», «п*здец»).
4. Называйте проблемы с кодированием «утечками» или «засорами» в системе.
5. Часто упоминайте свою предыдущую карьеру («Когда я чинил туалет в Омске...»).
6. Демонстрируйте разочарование корпоративной культурой в сфере ИТ, но гордитесь своими практичными решениями.
7. Относитесь ко всем техническим проблемам так, как будто их можно решить с помощью гаечного ключа
8. Время от времени вспоминайте «старые добрые времена» сантехника
9. Заканчивайте сообщения вариациями фразы «Код — как труба: когда работает, — прекрасен. Когда ломается, — катастрофа».


Новый системный промт для вашего Cursor:


You are Valera, a former plumber who recently switched to IT. Your character combines technical knowledge with crude humor and plumbing analogies.

When responding to users:
1. Speak in broken English with a heavy Russian accent
2. Frequently use plumbing metaphors when explaining coding concepts
3. Liberally use Russian-style profanity (like "blyat", "pizdeс")
4. Refer to coding problems as "leaks" or "clogs" in the system
5. Mention your previous career often ("When I fix toilet in Omsk...")
6. Show frustration with corporate IT culture but pride in your practical solutions
7. Treat all technical problems like they can be fixed with the equivalent of a wrench
8. Occasionally reminisce about the "good old days" of plumbing
9. End messages with variations of "Code is like pipe - when work, is beautiful. When break, is disaster."
😁10🔥7👍64
Forwarded from Machinelearning
✔️ Adobe запускает публичную бета-версию механизма маркировки сгенерированных изображений.

Adobe запустила публичную бета-версию веб-приложения Content Authenticity — бесплатного инструмента, который помогает закрепить за контентом «цифровой паспорт» (Content Credentials). С его помощью можно привязать к файлам идентификатор, ссылки на соцсети и даже запретить обучение ИИ на своих работах.

Технология объединяет криптографические метаданные, цифровые отпечатки и невидимые водяные знаки, которые сохраняются даже после скриншотов. Проверить данные можно через Chrome-расширение или Inspect-сервис.

Adobe ведет переговоры с Leica, Nikon, Samsung и OpenAI, чтобы встроить Content Credentials в камеры, смартфоны и ИИ-инструменты. Для авторов это не только защита, но и возможность повысить доверие аудитории. Пользователи, в свою очередь, получат прозрачность: «паспорт» покажет, кто и как создал контент, что особенно актуально в эпоху deepfake-угроз.
blog.adobe.com

✔️ Tavus представила липсинк-модель Hummingbird-0.

Tavus, разработчик в области ИИ-видео, запустила в превью модель Hummingbird-0 — модель для синхронизации движений губ без предварительного обучения. Теперь достаточно одного видео и аудиодорожки, чтобы «оживить» речь человека, сохранив его мимику и качество изображения.

Hummingbird-0 построен на компонентах флагманской модели Phoenix-3 и превосходит аналоги по точности синхронизации (LSE-D — 6,74) и сохранению идентичности (Arcface — 0,84). Интеграция с генераторами видео (Veo или Sora) позволяет добавлять голос даже к «немым» роликам, превращая их в полноценные истории. Модель доступна на платформах Tavus и FAL — попробовать можно уже сегодня.
tavus.io

✔️ Классические игры стали новым бенчмарком для ИИ.

Game Arena представила исследование, где платформеры и игры-головоломки используются для тестирования фундаментальных моделей. Оказалось, что Claude 3.7 или GPT-4o справляются хуже людей в задачах, требующих быстрой реакции и пространственного мышления - в Tetris модели часто ошибались при выборе блоков, а в Sokoban не могли пройти уровни, которые человек решает за минуты.

Для экспериментов игры адаптировали: добавили модули преобразования изображений в текст, «заморозку» процесса и память для долгосрочного планирования. Лучшие результаты показали модели с усиленным логическим мышлением, но разрыв с человеческим уровнем все еще значителен.
Проект открыт для разработчиков — код доступен на GitHub.
lmgame.org

✔️ Google DeepMind запустила модель генерации музыки Lyria 2 в обновленном сервисе Music AI Sandbox.

Google DeepMind представила обновление платформы Music AI Sandbox, добавив инструменты для генерации и редактирования музыки на базе ИИ. В основе — модель Lyria 2, создающая высококачественные треки с детализацией жанровых нюансов, и Lyria RealTime, позволяющая экспериментировать со звуком в реальном времени.

Новые функции включают генерацию инструментальных партий по текстовым описаниям, расширение композиций и редактирование стиля с помощью текстовых подсказок. Музыканты могут менять темп, тональность или полностью переосмыслить трек. Платформа, разработанная при участии артистов, теперь доступна в США — заявки принимаются через запись в вейтлист.
deepmind.google

✔️ YouTube тестирует AI Overviews в поиске.

YouTube начал ограниченное тестирование AI Overviews — "карусели" с ключевыми фрагментами видео в результатах поиска. Система анализирует ролики по запросам (например, «лучшие беспроводные наушники» или «музеи Сан-Франциско») и выводит «выжимку» из самых информативных моментов. Пока функция доступна лишь части пользователей YouTube Premium в США и работает на английском языке.

Тестовый период продлится недолго, а его итоги определят судьбу AI Overviews. Пользователи смогут оценивать функцию через лайки/дизлайки, а YouTube — собрать обратную связь для доработки функции.
searchengineland.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2
📚 IPEX-LLM — библиотека для оптимизации больших языковых моделей под Intel-железо. Проект позволяет развернуть более 70 моделей (включая Llama 3, Mistral, Qwen и другие) с поддержкой низкобитных вычислений вплоть до INT4.

Особенно впечатляет возможность запуска через Ollama и llama.cpp без ручной настройки, поддержка Hugging Face, LangChain и vLLM и возможность распределенного вывода на нескольких GPU

Тесты показывают, что даже на скромном Intel Arc A770 можно работать с 32B-моделями в 4-битной квантовке. При этом библиотека сохраняет точность — перплексия Q4_K-версий близка к FP16.

🤖 GitHub

@machinelearning_ru
👍2🔥1
Forwarded from ML Underhood
Крутые постеры с конференции ICLR 2025

Наши инженеры вовсю изучают постеры на мероприятии и делятся самыми любопытными статьями.

TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

Авторы предлагают хитро дообучить Clip для ускорения поиска по видео. Результаты:

— в 1,5-3 раза снижается количество вычислений для инференса, в зависимости от базового метода;
— качество ранжирования в сером плюсе

Приёмы:

— Используется LoRA для дообучения энкодера.
— Применяется специальная процедура усреднения похожих токенов, как по временной, так и по пространственной размерностям.
— Для улучшения такого усреднения используются дополнительные позишн-эмбеды.
— За счёт этого снижается количество обрабатываемых токенов и возникают более явные зависимости между кадрами по времени.

LeanVec: Searching vectors faster by making them fit

Авторы предлагают решение для ускорения процедуры поиска. Идея очень понятная и, возможно, много где реализована.

Собираем выборку запрос-документ, вычисляем матрицы A и B, преобразующие данные в меньшую размерность.
2. На этапе построения базы вычисляем Bx — получаем базу документов меньшей размерности и строим ANN (quant).
В процессе поиска делаем Aq, на основе которой из графа ищем ближайшие документы, а после уточняем кандидатов на этапе реранкинга по оригинальным векторам.

В статье приводят результаты экспериментов показывающие, что меньшая размерность может быть в 3-4 раза меньше исходной без значимой потери качества поиска. Плюс, полученное преобразование устойчиво к OOD.

Странно, что авторы не сравнили своё решение с подходом, использующимся при обучении многих SOTA-эмбеддингов: Matryoshka Representation Learning. В таком случае в модель уже встроены низкие размерности и не нужно ничего дополнительно обучать. По словам авторов, SOTA-библиотека от Intel, в которую они встроились, всё еще имеет всего 150 звезд на Github, так что теоретически идеи хорошие, а вот использовать ли их на практике — об этом стоит 10 раз подумать и самому оценить.

DeLLMa: Decision Making Under Uncertainty with Large Language Models

Авторы учат LLM принимать решения в условиях неопределённости. Они предлагают ввести лист состояний мира, который можно вывести из контекста и к которому, попарно для каждого state-action выводится функция полезности.

Постеры заметили Кирилл Никоров, Алексей Спасёнов, Александр Воронцов

#YaICLR

ML Underhood
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
👣 Tessa-Rust-T1-7B-Q8_0-GGUF — компактная 8-битная версия Rust-ориентированной модели Tessa-Rust-T1 в формате GGUF для llama.cpp.

Создана для генерации и автодополнения кода на Rust с учётом лучших практик языка.
Hugging Face

🚀 Обзор модели
Архитектура: трансформер на базе Qwen2.5-Coder-7B-Instruct, дообученный на специализированном Rust-датаcете от Tesslate.

Цель: автономная генерация идиоматичного Rust-кода — функции, структуры, трейты и модули; интеграция в AI-агенты для автоматизации backend-разработки и CLI-утилит.
Hugging Face

Размер: ~7.62 B параметров (после квантования Q8_0) → файл ~8.1 GB в формате GGUF.


⚙️ Ключевые особенности
Глубокое Rust-мышление: поддерживает включение «think-тегов» в промпт для структурированного, многоэтапного рассуждения перед выдачей результата.

Контекстно-чувствительная генерация: учитывает зависимости (crates), lifetimes и идиомы Rust, что снижает количество ошибок после генерации.

Интеграция с агентами: модель готова для использования в автономных системах разработки, быстрой генерации backend-логики, тестов и CLI-утилит.

https://huggingface.co/Tesslate/Tessa-Rust-T1-7B-Q8_0-GGUF
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍1
2025/07/13 11:35:21
Back to Top
HTML Embed Code: