Видео Нейродайджест:
2025 год видео моделей и думающих LLM
- Veo 2 — Гугловский монстр вырвался на волю. Доступен на Freepik (Premium+ юзерам за тонну токенов) и на fal.ai ($1.25 за 5-секундный видосик). Цена кусается, пока только txt2img, но качество — космос.
- Luma Ray 2 — Теперь с img-2-video и video-2-sfx (саунд). Не дотягивает до Veo 2 по картинке, зато цена норм и фичи удобные: анлим за $95 для тех, кому надо.
- Pika’s Pikadditions & Pikaswaps — Чуваки идут путём мемов и VFX. Pikadditions пихает объекты с фоток в видео, Pikaswaps меняет банки ягуара на колу. 8 бесплатных генераций в месяц, но глюки — часть веселья: лица корежит, физика выходит из чата.
- Adobe Firefly Video — Чистый датасет, симпатичная картинка. Идеально для монтажа: продлить, расширить (да, есть расширение), накинуть VFX. Идеальный add-on для Премьера.
- Topaz Starlight — Диффузионный реставратор видео на 6B+ параметров. Вытягивает даже самые убитые кассеты. 10 сек бесплатно, 5 мин за бабки (немалые). Ждём концерт Queen в 4K.
И ещё 1000 и 1 опенсорс-проект — Lumina Video, Magic 1-For-1 и прочие. Статус “юзабельно” всё ближе, а кому-то уже и так норм.
> Читать Топ-10 постов 2024 года.
#дайджест
@ai_newz
2025 год видео моделей и думающих LLM
- Veo 2 — Гугловский монстр вырвался на волю. Доступен на Freepik (Premium+ юзерам за тонну токенов) и на fal.ai ($1.25 за 5-секундный видосик). Цена кусается, пока только txt2img, но качество — космос.
- Luma Ray 2 — Теперь с img-2-video и video-2-sfx (саунд). Не дотягивает до Veo 2 по картинке, зато цена норм и фичи удобные: анлим за $95 для тех, кому надо.
- Pika’s Pikadditions & Pikaswaps — Чуваки идут путём мемов и VFX. Pikadditions пихает объекты с фоток в видео, Pikaswaps меняет банки ягуара на колу. 8 бесплатных генераций в месяц, но глюки — часть веселья: лица корежит, физика выходит из чата.
- Adobe Firefly Video — Чистый датасет, симпатичная картинка. Идеально для монтажа: продлить, расширить (да, есть расширение), накинуть VFX. Идеальный add-on для Премьера.
- Topaz Starlight — Диффузионный реставратор видео на 6B+ параметров. Вытягивает даже самые убитые кассеты. 10 сек бесплатно, 5 мин за бабки (немалые). Ждём концерт Queen в 4K.
И ещё 1000 и 1 опенсорс-проект — Lumina Video, Magic 1-For-1 и прочие. Статус “юзабельно” всё ближе, а кому-то уже и так норм.
> Читать Топ-10 постов 2024 года.
#дайджест
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель
Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.
Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.
Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.
Веса
Код
wanxai.com
@ai_newz
Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше бенчей никаких нет, так что ждём полноценного техрепорта и тем временем вайбчекаем модель по генерациям). По ним, например, видно что модель очень хорошо генерирует текст, как на английском, так и на китайском, с чем другие модели справляются куда хуже.
Идёт в двух размерах — 1.3B и 14B и в нескольких разных вариантах для разных разрешений (поддерживаются 480p и 720p). Маленькой 1.3B модели нужно всего 8,2 гигабайта VRAM для запуска, а на генерацию видео уходит всего 4 минуты на 4090.
Большая моделька потребляет заметно больше — вплоть до 77 гигабайт. Но модели совсем не оптимизированные (замеры по памяти делали с fp32 моделями), так что есть много простора для оптимизации. Посмотрите на тот же Hunyuan, который при ~таком же количестве параметров неплохо запускается на консьюмерских видяхах. Умельцы за пару недель ещё оптимизируют эти модели, чтобы запускалось на каждом холодильнике.
Веса
Код
wanxai.com
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Моделька умеет во всё, что нужно: txt2img, img2video и даже end frame имеется! Кроме того, Wan может в обработку видео и саунд-эффекты. У нас есть structure maintenance — выглядит как depth control net или схожий по принципу, сохраняет общие детали. Posture maintenance — pose controlnet, а также инпейнтинг, аутпейнтинг и multi-image reference — те самые ingredients или elements из Pika и Kling.
Что касается качества, видно, что в приоритет ставили производительность. Картинка, судя по черипикам, имеет очень хороший мувмент, хоть и в слоумо, гляньте на котов-боксёров в комментах, но при этом видны небольшие артефакты примерно везде, где есть хоть немного визуального шума. Если приглядеться, видео в немного моргает, как будто подмешивают слишком много нойза. Ну и разрешение, конечно, далеко от 4k.
@ai_newz
Что касается качества, видно, что в приоритет ставили производительность. Картинка, судя по черипикам, имеет очень хороший мувмент, хоть и в слоумо, гляньте на котов-боксёров в комментах, но при этом видны небольшие артефакты примерно везде, где есть хоть немного визуального шума. Если приглядеться, видео в немного моргает, как будто подмешивают слишком много нойза. Ну и разрешение, конечно, далеко от 4k.
@ai_newz
Claude играет в покемонов на стриме
Добро пожаловать в будущее, теперь игры — бенчмарки для агентных моделей.
https://www.twitch.tv/claudeplayspokemon
@ai_newz
Добро пожаловать в будущее, теперь игры — бенчмарки для агентных моделей.
https://www.twitch.tv/claudeplayspokemon
@ai_newz
Наконец-то и Яндекс выложили модель в опенсорс 😘
На растерзание энтузиастам отдали YandexGPT 5 Lite на 8B параметров, это базовая модель до пост-трейна. Перфоманс по бенчам чуть лучше, чем у LLaMA и Qwen тех же размеров, и значительно лучше в русском языке.
Интересно, что если Lite обучали с нуля, то Pro обучали гибридно - инициализировали веса с чекпоинта Qwen 2.5 32B Base, а поверх него уже запустили полноценный претрейн пайплайн на своих данных. Это не просто файнтюн, потому что включает в себя все этапы тренировки модели и использует сильно больше токенов. ИМХО это хороший способ сэкономить ресурсы и ускорить обучение, если архитектура как-то кардинально не меняется.
Тренили Lite на датасете в 15 триллионов токенов (прямо как Llama 3), он включал в себя 30% русского и 70% английского. При этом из них только 15% — код, 10% — математика, поэтому в этих задачах она проигрывает тому же Qwen. В базовой модели, которую выложили в опенсорс, нет никакой цензуры.
А вот старшая модель PRO уже доступна в чатике с Алисой. Так что виртуальный ассистент теперь совсем умный) Почти 4o, lol. Пишут, что PRO сильна в кодинге. И хоть среди англоязычных разрабов все топят за Клод в работе с кодом, последняя моделька Яндекса, по моему опыту, тоже неплохо справляется, особенно с русскоязычными промтами. PRO доступна через API, и к ней даже можно прикрутить RAG.
В блог-посте на Хабре расписаны детали про тренировку модели.
Потыкать здесь
Моделька на обнимающем лице 🤗
@ai_newz
На растерзание энтузиастам отдали YandexGPT 5 Lite на 8B параметров, это базовая модель до пост-трейна. Перфоманс по бенчам чуть лучше, чем у LLaMA и Qwen тех же размеров, и значительно лучше в русском языке.
Интересно, что если Lite обучали с нуля, то Pro обучали гибридно - инициализировали веса с чекпоинта Qwen 2.5 32B Base, а поверх него уже запустили полноценный претрейн пайплайн на своих данных. Это не просто файнтюн, потому что включает в себя все этапы тренировки модели и использует сильно больше токенов. ИМХО это хороший способ сэкономить ресурсы и ускорить обучение, если архитектура как-то кардинально не меняется.
Тренили Lite на датасете в 15 триллионов токенов (прямо как Llama 3), он включал в себя 30% русского и 70% английского. При этом из них только 15% — код, 10% — математика, поэтому в этих задачах она проигрывает тому же Qwen. В базовой модели, которую выложили в опенсорс, нет никакой цензуры.
А вот старшая модель PRO уже доступна в чатике с Алисой. Так что виртуальный ассистент теперь совсем умный) Почти 4o, lol. Пишут, что PRO сильна в кодинге. И хоть среди англоязычных разрабов все топят за Клод в работе с кодом, последняя моделька Яндекса, по моему опыту, тоже неплохо справляется, особенно с русскоязычными промтами. PRO доступна через API, и к ней даже можно прикрутить RAG.
В блог-посте на Хабре расписаны детали про тренировку модели.
Потыкать здесь
Моделька на обнимающем лице 🤗
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Alexa наконец-то станет умной
Теперь внутри Alexa будут полноценные агентные LLM (Claude и Amazon Nova), которые смогут взаимодействовать с десятками тысяч интеграций Alexa. Кто не в курсе, там есть всё — от управления умным домом, до заказов еды и покупки билетов. Слухи о такой интеграции ходили давно, но заставить работать такое количество тулов в одном месте до них ещё никому не удавалось, поэтому времени ушло порядочно.
Это будет интегрировано с новой памятью, а-ля ChatGPT, где Alexa будет запоминать инфу вроде диетических предпочтений, фактов о вас и так далее. Помимо этого она всё ещё будет иметь доступ ко всем персональным данным к которым имела доступ старая Alexa, типа истории покупок. Для более удобного взаимодействия Amazon сделали новое мобильное приложение и добавили возможность взаимодействовать с Alexa через сайт.
Продвинутые фичи Alexa будут доступны всем подписчикам Amazon Prime в следующие несколько месяцев. Чисто теоретически существует ещё и отдельная подписка Alexa+, за $20 в месяц, но существует она явно чтобы больше людей подписалось на Prime, который стоит на 5 долларов дешевле.
@ai_newz
Теперь внутри Alexa будут полноценные агентные LLM (Claude и Amazon Nova), которые смогут взаимодействовать с десятками тысяч интеграций Alexa. Кто не в курсе, там есть всё — от управления умным домом, до заказов еды и покупки билетов. Слухи о такой интеграции ходили давно, но заставить работать такое количество тулов в одном месте до них ещё никому не удавалось, поэтому времени ушло порядочно.
Это будет интегрировано с новой памятью, а-ля ChatGPT, где Alexa будет запоминать инфу вроде диетических предпочтений, фактов о вас и так далее. Помимо этого она всё ещё будет иметь доступ ко всем персональным данным к которым имела доступ старая Alexa, типа истории покупок. Для более удобного взаимодействия Amazon сделали новое мобильное приложение и добавили возможность взаимодействовать с Alexa через сайт.
Продвинутые фичи Alexa будут доступны всем подписчикам Amazon Prime в следующие несколько месяцев. Чисто теоретически существует ещё и отдельная подписка Alexa+, за $20 в месяц, но существует она явно чтобы больше людей подписалось на Prime, который стоит на 5 долларов дешевле.
@ai_newz
Ну что, поехали смотреть анонс GPT 4.5?
➖ Модель уже начали раскатывать в API и для Pro пользователей, в Plus на следующей неделе.
➖ Галлюцинирует куда меньше чем прошлые модели компании.
➖ Более креативнее предшественников.
➖ GPT 4.5 тренировали, используя несколько датацентров сразу и с более агрессивным mixed precision — скорее всего имеется в виду тренировка в fp8.
➖ Цены космические — 75 долларов за миллион токенов инпута и $150 за миллион токенов аутпута.
https://www.youtube.com/watch?v=cfRYp0nItZ8
@ai_newz
➖ Модель уже начали раскатывать в API и для Pro пользователей, в Plus на следующей неделе.
➖ Галлюцинирует куда меньше чем прошлые модели компании.
➖ Более креативнее предшественников.
➖ GPT 4.5 тренировали, используя несколько датацентров сразу и с более агрессивным mixed precision — скорее всего имеется в виду тренировка в fp8.
➖ Цены космические — 75 долларов за миллион токенов инпута и $150 за миллион токенов аутпута.
https://www.youtube.com/watch?v=cfRYp0nItZ8
@ai_newz
Ребят, накидайте в комменты своих любимых, авторов, каналов, блогеров, инфлюенсеров и прочих сказочных существ вроде меня. Лучше что-нибудь из научпопа и AI/ML/IT. Какого-нибудь Канье Уэста, пожалуй, не стоит)
Думаю, всем будет интересно открыть для себя новые источники новостей и классного контента. В том числе из смежных индустрий, не только АИ. А я взамен пойду и поддержу их покупкой промо. Кто-то уже мог заметить, что я иногда закупаю рекламу. Так вот мне кажется, я весь толковый ТГ уже пропылесосил, так что ищу новые таланты) Короче, все в плюсе — и читатели, и авторы, и я.
Делитесь тем, что читаете сами и чьему мнению доверяете. Можно не только из ТГ, но и из Ютуба, и даже X (предпочтительнее русскоязычных, но англоязычных тоже будет интересно почитать).
Ну всё, погнали! Накидайте лайков тем комментариям, с которыми согласны, и оставьте своего фаворита.
Ссылки на телегу пишите чере `www.tgoop.com/`.
@ai_newz
Думаю, всем будет интересно открыть для себя новые источники новостей и классного контента. В том числе из смежных индустрий, не только АИ. А я взамен пойду и поддержу их покупкой промо. Кто-то уже мог заметить, что я иногда закупаю рекламу. Так вот мне кажется, я весь толковый ТГ уже пропылесосил, так что ищу новые таланты) Короче, все в плюсе — и читатели, и авторы, и я.
Делитесь тем, что читаете сами и чьему мнению доверяете. Можно не только из ТГ, но и из Ютуба, и даже X (предпочтительнее русскоязычных, но англоязычных тоже будет интересно почитать).
Ну всё, погнали! Накидайте лайков тем комментариям, с которыми согласны, и оставьте своего фаворита.
Ссылки на телегу пишите чере `www.tgoop.com/`.
@ai_newz
Гайд по использованию продвинутых фич LLM от Карпатого
Прошлое видео было про то, как работают LLM и их базовое использование. А здесь Карпатый показывает как он использует уже более продвинутые фичи, включая:
🔹 Работу с документами и анализ данных при помощи LLM
🔹 Что такое Deep Research и как им пользоваться
🔹 Разбирает эффективный промптинг "думающих" моделей
🔹 Как он программирует вместе с LLM
🔹 Как Artifacts позволяют создавать микро-приложения специально под пользователя
🔹 Рассказывает про оптимальную работу LLM с видео, аудио и изображениями
Видео Карпатого — один из лучших обучающих ресурсов по нейронкам в интернете (вот подборка). Хорошо, что теперь он начал их ориентировать и на обычных пользователей, без знания программирования.
https://www.youtube.com/watch?v=EWvNQjAaOHw
@ai_newz
Прошлое видео было про то, как работают LLM и их базовое использование. А здесь Карпатый показывает как он использует уже более продвинутые фичи, включая:
🔹 Работу с документами и анализ данных при помощи LLM
🔹 Что такое Deep Research и как им пользоваться
🔹 Разбирает эффективный промптинг "думающих" моделей
🔹 Как он программирует вместе с LLM
🔹 Как Artifacts позволяют создавать микро-приложения специально под пользователя
🔹 Рассказывает про оптимальную работу LLM с видео, аудио и изображениями
Видео Карпатого — один из лучших обучающих ресурсов по нейронкам в интернете (вот подборка). Хорошо, что теперь он начал их ориентировать и на обычных пользователей, без знания программирования.
https://www.youtube.com/watch?v=EWvNQjAaOHw
@ai_newz
YouTube
How I use LLMs
The example-driven, practical walkthrough of Large Language Models and their growing list of related features, as a new entry to my general audience series on LLMs. In this more practical followup, I take you through the many ways I use LLMs in my own life.…
Нейродайджест за неделю (#58)
LLM
- Deep Research — дали всем подписчикам ChatGPT, Plus подписка даёт 10 запросов в месяц, для Pro расширили до 120.
- Claude против покемонов — на твиче запустили стрим где Claude проходит оригинальный Pokémon.
- YandexGPT 5 — хороший перформанс Про модели, а Лайт версию выложили в опенсорс.
- GPT 4.5 — модель слабее предшественников в коде (потому что не reasoner), но её главная фишка это креатив и нормальный стиль живого человека.
- Подгоны от DeepSeek — авторы R1 выложили значительную часть своего внутреннего стака в открытый доступ (обзор скоро будет).
- Claude Sonnet 3.7 Extended Thinking — Антропик обзавелась своей ризонинг моделью, говорят лучшая для кодеров.
Генеративные модели
- Alibaba Wan 2.1 — мощнейший видеогенератор с открытым исходным кодом! Умеет в txt и img2video + имеет при себе два вида контроллера для video2video, и даже inpainting.
- Видео дайджест — собрал все новости с просторов txt2video за последние два месяца. Veo 2 в общем доступе, моделька Adobe и другое.
Гайды
- Prompt engineering от Карпатого — гений гайдов по ллм записал 2-х часовой advanced гайд по написанию промптов. Мастхев для каждого юзера ChatGPT и прочих.
Прочее
- Alexa стала умнее — колонке завезли настоящие мозги. Интегрируется со всем, что можно себе представить, включая доставку еды.
- Обмен каналами — делимся любимыми авторами и пиарим свои блоги про AI/ML и прочее.
> Читать дайджест #57
#дайджест
@ai_newz
LLM
- Deep Research — дали всем подписчикам ChatGPT, Plus подписка даёт 10 запросов в месяц, для Pro расширили до 120.
- Claude против покемонов — на твиче запустили стрим где Claude проходит оригинальный Pokémon.
- YandexGPT 5 — хороший перформанс Про модели, а Лайт версию выложили в опенсорс.
- GPT 4.5 — модель слабее предшественников в коде (потому что не reasoner), но её главная фишка это креатив и нормальный стиль живого человека.
- Подгоны от DeepSeek — авторы R1 выложили значительную часть своего внутреннего стака в открытый доступ (обзор скоро будет).
- Claude Sonnet 3.7 Extended Thinking — Антропик обзавелась своей ризонинг моделью, говорят лучшая для кодеров.
Генеративные модели
- Alibaba Wan 2.1 — мощнейший видеогенератор с открытым исходным кодом! Умеет в txt и img2video + имеет при себе два вида контроллера для video2video, и даже inpainting.
- Видео дайджест — собрал все новости с просторов txt2video за последние два месяца. Veo 2 в общем доступе, моделька Adobe и другое.
Гайды
- Prompt engineering от Карпатого — гений гайдов по ллм записал 2-х часовой advanced гайд по написанию промптов. Мастхев для каждого юзера ChatGPT и прочих.
Прочее
- Alexa стала умнее — колонке завезли настоящие мозги. Интегрируется со всем, что можно себе представить, включая доставку еды.
- Обмен каналами — делимся любимыми авторами и пиарим свои блоги про AI/ML и прочее.
> Читать дайджест #57
#дайджест
@ai_newz
В Anthropic инвестировали ещё 3.5 миллиарда
После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.
Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард). Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.
@ai_newz
После раунда финансирования от группы инвесторов, компания теперь оценивается в 61.5 миллиард долларов. Это примерно один уровень оценки с xAI, которые сейчас договариваются о раунде на 10 миллиардов, при оценке в 75.
Anthropic просто спамят инвестициями — это третий раунд за полгода (в ноябре Amazon инвестировал 4 миллиарда, а в январе Google миллиард). Делают так из-за скорости роста оценки — полгода назад компания стоила в 1.5-2x меньше. При таких темпах, Anthropic выгоднее брать много раундов на суммы поменьше, чем один большой.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Сейчас все вычисления производятся на серверах и ваш лаптоп служит вам только для того чтобы подключиться к машине с по ssh, локально почти никто ничего уже не запускает. Вот и тулы для программистов переезжают в клауд. Нактнулся на такую штуковину – SourceCraft. Это новая платформа для командной разработки от Yandex B2B Tech. Она поддерживает полный цикл разработки от постановки задачи до деплоя в облаке. Там много приблуд, которые спасают от рутины, например – быстрая навигация по коду, гибкая система CI/CD и др.
А самое главное — это встроенный редактор кода прямо в браузере, который позволяет легкую навигацию по всей кодбазе, что сильно выделяет SourceCraft на фоне конкурентов. В редактор встроен Code Assistant — AI-ассистент понимающий более 30 языков программирования. Ассистент доступен и как отдельный плагин для VSCode и IDE JetBrains, поэтому ломать привычки не придётся.
Для тех, кто держит код строго на своих серверах, в будущем обещают on-premise версию. Судя по отзывам первых пользователей, инструмент действительно стоящий — за полгода внутренние метрики удовлетворённости пользователя выросли более чем на 30%.
@ai_newz
А самое главное — это встроенный редактор кода прямо в браузере, который позволяет легкую навигацию по всей кодбазе, что сильно выделяет SourceCraft на фоне конкурентов. В редактор встроен Code Assistant — AI-ассистент понимающий более 30 языков программирования. Ассистент доступен и как отдельный плагин для VSCode и IDE JetBrains, поэтому ломать привычки не придётся.
Для тех, кто держит код строго на своих серверах, в будущем обещают on-premise версию. Судя по отзывам первых пользователей, инструмент действительно стоящий — за полгода внутренние метрики удовлетворённости пользователя выросли более чем на 30%.
@ai_newz
эйай ньюз
Alibaba Wan 2.1 - новая SOTA опенсорс видео модель Скорее всего это та самая загадочная модель, которая уже месяц доступна в Qwen Chat. На лидерборде VBench она занимает первое место, но там нет нескольких сильных конкурентов, вроде Veo 2 от гугла. Больше…