Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.5 Pro выкатили бесплатно на всех.

Судя по отзывам коллег, а не по бенчмаркам, это лучшая модель для кода. Уделывает Sonnet 3.7.

Попробовать можно тут:
https://gemini.google.com/

и что меня всегда удивляло у Гугла - это зоопарк названий и продуктов, поэтому пробовать также можно тут:
https://aistudio.google.com/
Там ее зовут Gemini 2.5 Pro Experimental 03-25

Огромный контекст, мультимодальность, возможность вгружать целые папки с кодом.

Я жду, когда сделают генерацию картинок, на основе этой модели, должна быть бомба.

У меня нет таких сложных задач, я просто попросил Gemini сделать эквалайзер для визуализации mp3 файлов. Иногда хочется кидать в канал треки, которые присылают подписчики. А расчехлять Тачдизайнер для этого как-то громоздко.

Сделала. В принципе с этой задачей все справились. Но у Гемини (на мой взгляд, самый читаемый код). А еще любопытно, что Gemini, Claude и модели OpenAI пишут очень похожий код на этой задаче, а вот Грок пишет код, который отличается от них.

Потом сделал на three.js страницу, чтобы спрашивала mp3 и начинала сразу испускать частицы под музыку в соответствии с частотками (в реалтайме), потом остановился и стал писать этот пост. Ибо затягивает.

@cgevent
В понедельник я застрял в написании и сравнении эквалайзеров, потом взял себя в руки, но тут же залип, особенно с 1:45, глядя как Клод общается по-русски и потихоньку пишет лоу-фай. И да, это все MCP для Ableton..

- А давай басов навалим?
- А давай!
https://www.tgoop.com/letitgoagency/238
Forwarded from Psy Eyes
Media is too big
VIEW IN TELEGRAM
Runway: выкатили Gen-4.

Обещают генерацию стабильных миров с консистентными персонажами.

Управление персонажами как и контроль сцены станет послушнее. Редактирование местами напоминает работу со слоями в фотошопе.

Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.

Качество и эстетичность стали ещё кинематографичнее.

На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.

Анонс
Сайт
А Krea обещает неделю полную обновлений, начиная с сегодня.

Для начала, они обновили сайт. Ну как обновили, разнесли там всё конкретно.

Твиттор уже приподвзвывает: где наши любимые фичи типа ремикса из трёх картинок.

Сам я иногда только апскейл там делаю, не могу оценить тяжести травм от нового дизайна.

https://www.krea.ai/

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Очень интересная штука появилась у Eleven Labs

Это типа video2video, только audio2audio. Если ещё точнее - style transfer.

Берете чью-то речь. Например, актер с хорошим баритоном наговорил рекламу, и понимаете, что хотите немного исправить акценты, микропаузы и пр.

Наговариваете так, как сами бы озвучили, а ИИ переносит ваши акценты на чужую озвучку.

Поглядите видео, там достаточно понятно.

Это как бы перенос стиля, а не голоса.

Они называют это Actor Mode, хотя как по мне - это больше Director Mode.

И меня дико поражает, что это вообще возможно. Просто вдумайтесь, что происходит. И что было три года назад.

@cgevent
Подсобрал немного видосов (не черри пиков с сайта) и мыслей про Runway GEN-4.

Мне по-прежнему не нравятся эти пластиковые лица из солярия (капризничаю, у всех так). Почему-то именно люди, как правило, пересвечены, как будто разогнаны из мыла и сделаны из пластика. Глаз проскальзывает без деталей на лицах.

Мне по-прежнему не нравится мыло на типа-фотореалистричных видосах. Я помню, что Хедра-1 отчаянно мылила лица, но к версии 3 они сильно продвинулись. Ждем того же от Рунвей.

По поводу управления камерой - в последнее время - это прям гонка вооружений у всех. Я уже писал об этом на заре видеогенераций - в отличие от картинок - это не просто одно новое измерение по времени (x,y,t), это десятки новых измерений, где каждая сущность в кадре имеет свое время и надо все это утрясти в один не раздирающий глаз\мозг поток. Я опять ною, но все эти ИИ-трейлеры представляют собой очень плохо сшиваемый монтаж "из того что получилось". Тот самый межкадровый монтаж. До которого, как до луны.

Но это нытье, а пока налицо лучшее управление, лучшее понимание промпта, менее сложные промпты для управления, огненный image2video и заява на консистентность персонажей\лиц с первого кадра.

И поглядите на видос с зеленым лицом - какие они сделали зубы!! Неужели после пальцев взялись за стоматологию?

Ну и как только лицо уходит от фотореализма, GEN-4 перестает его пересвечивать и покрывать воском.

Посмотрите на видео с клювами - пара морщин - и лица превращаются потрясающих персонажей.

И меня поражает, как ловко теперь генерятся мультики, анимация объектов, стилизация. Моушен дизайн и реклама уже не будет прежним. Там где композиция и анимация не встречаются в жизни, не повторяют съемку, а придуманы (неважно кем), глаз такой - о, как круто, что-то новое. Нет сравнения со знакомым (лицом, ракурсом).

Да, там мыло в динамике, это это чисто вопрос времени и компьюта. Дотренируют на большее разрешение и меньший разгон.

Ну и гляньте на видос с парашютом - там сравнение с другими генераторами. Не могу сказать, что GEN-4 нравится мне больше, чем Veo2, но время и тесты (и деньги) покажут.

Всем беспокойного сна.

P.S. Второй видос самый жирный.

@cgevent
Сама: мы, грит, два года назад на запуске chatGPTнабрали 1 миллион юзеров за 5 дней (был такой слайд)

Сегодня мы набрали 1 новый миллион ЗА ЧАС.

Так вот, кто нам генерации убивает!

Стартапы: а где дают таблетки от депрессии и зависти.

@cgevent
А еще Сама обещает скоро опенсорснуть модель уровня o3-mini (с ризонингом).

"Мы давно думали об этом, но другие приоритеты брали верх. теперь нам кажется, что это важно сделать.

Перед выпуском мы оценим эту модель в соответствии с нашей системой готовности, как и любую другую модель, учитывая, что знаем, что эта модель будет изменена (пользователями) после выпуска.

Нам еще предстоит принять некоторые решения, поэтому мы проводим мероприятия для разработчиков, чтобы собрать отзывы и позже поиграть с ранними прототипами. Мы начнем в SF через пару недель, затем пройдут сессии в Европе и APAC. Если вы заинтересованы в участии, пожалуйста, зарегистрируйтесь по ссылке выше."

https://openai.com/open-model-feedback/
This media is not supported in your browser
VIEW IN TELEGRAM
Krea.ai не соврали: новый апдейт.

Теперь они идут в 3Д-генерацию...

Завтра изучаем их сетки.

Под капотом Hunyuan 3D and Trellis

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Audio2Audio в Udio

Звучит как заклинание, но тем не менее: теперь вы можете подать на вход любой свой\чужой трек и сказать "сделай на том же вайбе".

И это не Remix или Extend как раньше. Styles помогают "попадать в звук".

"Из предоставленного вами трека или клипа Udio извлекает "представление стиля", в котором собраны все его ключевые стилистические элементы, а затем использует его для создания новых песен с похожим звучанием. Представления стиля содержат гораздо больше информации, чем традиционные текстовые подсказки, позволяя точно улавливать и воспроизводить специфические звуки, которые трудно описать"

И да, можно делать Extend существующего трека в новом стиле из загруженного файла.

Только для подписки PRO. Во всех режимах: Create, Edit, Extend, and Remix.

Есть рулька Styles Similarly и вроде как нет цензуры, то есть проверки авторского контента в загружаемых треках.

Вот, послушайте, как звучат вариации:
https://www.udio.com/playlists/260290ac-eadd-4c32-a60c-f985eac72f76

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
MoCha: Towards Movie-Grade Talking Character Synthesis

Тут интерны из Метачки выкатили типа Хедру, но только без входных изображений.

Я не очень понял замысел: на входе ТОЛЬКО текстовый промпт и звуковой файл. То есть это как бы генерилка говорящих голов, но text2video only.

Название амбициозное, типа "кинокачество".

Но нет, загорелые пластиковые лица. Отлично с анимацией работает (тут вот есть простор для text2video).

Ну и они акцентируют, что мы не только голову генерируем, но и все, что за ней.

В общем странное позиционирование. Кода и демо нет.

Есть твит и сайт.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что Kreaтивщики, Krea.ai продолжает приподвзажигать.

Каждый день новый апдейт, как обещали

Вонзили в свой новый дизайн/интерфейс редактирование картинок с помощью Gemini (думаю 2.0).

Мы уже тут обсудили, что Гемини в плане именно редактирования(но не генерации), наверное, лучшая модель.

И да, все это можно делать в интерфейсе Google AI Studio. И даже бесплатно (с лимитами).

Но где интерфейс Гугла, и где интерфейс Krea?

Креа берет деньги именно за удобство и инструменты редактирования.

Проверьте плиз, насколько она меняет детали исходной картинки до и после редактирования.

P.S. умные подписчики уже ваяют свои приложения на базе Гемини для редактирования картинок. Бесплатные, не реклама:
https://testflight.apple.com/join/Jmq542Qb

@cgevent
2025/04/02 09:35:58
Back to Top
HTML Embed Code: