Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
Чтобы отвлечься от метановостей, подкину вам вот такой инфоповод.

В Хедру интегрируют Флюкс!

На видео засветился Flux Schnell, Flux + Realism Lora и олдовый SDXL.

В отличие от Хейгена, который не жалует генеративных тварей, тут прямо указано:

Создавайте высококачественных, ультрареалистичных персонажей всего за минуту (с помощью Флюкс).
Ваши герои не только будут выглядеть соответствующе, но и смогут говорить естественными, четкими голосами.
Все встроено прямо в ваш существующий процесс. Не нужно переключаться между инструментами - просто сосредоточьтесь на создании.


Похоже надо вонзить им деньжат - эта фича пока только для платных аккаунтов.
Хотя меня до сих пор бесит их низкое качество, приходится полировать Face Fusion-ом.

Ну то есть они пилят кнопку "Сгенери и оживи", что круто. Осталось допилить качество.

https://www.hedra.com/
Я полез в Хедру и обнаружил там новый режим Stylize.
Ну, думаю, разомнусь, перед интеграцией с Flux.

Вгрузил туда свою фотачку и получил .. вот такой вот каминг аут.

Хедра чото знает про меня, не иначе.

Давай, говорит, я тебе еще и видео сделаю.

Ну давай...

Тут я не знаю, плакать или смеяццо.

https://www.hedra.com/app/stylize/

@cgevent
Метаверсище и ИИще
Прошел Meta Connect 2024. Можете посмотреть трансляцию, а я выделю три крупных новости: Очки Orion Новый Метаверсег HyperSpace Llama 3.2 Начну с очков. Проект Orion то закрывали, то открывали в другом статусе, я писал два года назад: Только что свернули…
Немного о том, что там внутри очков Orion, о которых писал вчера.

Также поглядите обзор от Скота Штейна, там все отлично видно. И много параллелей с лыжной маской от Эппле.

От себя добавлю еще несколько деталей.

Сроки - на раньше 2026, а то и 2027.

Работа от батареи - около 2 часов.

И самое главное, это пока не консюмерский продукт. Это пока даже не финальный продукт, это прототип. Пока доступен ну очень узкому кругу тестеров и журналистов.

Судя по тому, как все меняется, думаю до финала дойдет уже другой продукт.

Ну и я когда-то был уверен, что Эппле не станет делать лыжную маску, а исполнит именно в такой проект легких очков. Но маски теперь пылятся на полках, а фанаты Эппле воздыхают с придыханием "Apple же сделает легкую версию Вижен Про в виде очков?"

@cgevent
По поводу коментов. Если вы хотите попасть в чат, приведите в порядок свой профиль.
Я отсматриваю примерно 100 заявок каждые 3 дня. На скрине пример того, что я вижу.
Шквал ботов и инфоцыган. Не знаю кого больше.
Если у вас нет ника в телеге, тоже шансы маленькие.
Ну и если у ваc аниме на аватарке, шансов нет - у меня аллергия на такое.

@cgevent
Я слежу за всеми этими AI 3D Generators.

Все эти многочисленниые бумаги и демо на Хаггинг Фейсе помирают сразу после публикации. Я больше не вижу смысла даже упоминать их в канале.

Среди тех, кто не помер, Tripo 3D, Meshy и Rodin.

Потому что они смотрят немного дальше, чем генерация.

Уже сейчас становится понятно, что из генерации приезжает говномеш. До тех пор, пока все используют одни и те же говнодатасеты.

Возможно что-то изменится, когда Shutterstock, который пожрал TurboSquid(не знали?) или Getty Images сделают что-то принципиально иное, на основе своих 3Д-стоков, содержащих информацию не только про облако вертексов, а и про UV, топологию, текстуры, нормали и прочая. Автодеск делал такое в 2018 году, но они выпилили из интернета это видео, хотя я в Ванкувере сам его видел на Сигграфе.

Итого, смышленые вышеперечисленные игроки пытаются пришпандорить к своим говномешам ретоп(отличная новость, смотри видео от Meshy, хотя это просто скрипт), текстуры и даже шейдеры (Rodin) - благо тут можно приподшаманить с апскейлерами и ИИ. Кстати, они делают автоматический паблишинг на Sketchfab.

Но самое дерзкое, что они замахиваются на анимацию.

Поглядите на анимационные пресеты в Meshy. Там виден, мать его, ТАЙМЛАЙН.

Да, это все пляшущие 3Д-монстротянки. И до прода там пропасть. Но до тиктока - нет.

И мы видим любопытную ситуацию. Все эти генераторы начинают обрастать функционалом взрослых 3Д-пакетов. Ретоп, риг, скин, таймлайн, ключи и пр. И как бы двигаться в эту сторону (но тут проблема в том, что для нового нормального это все ДИКО СЛОЖНО, как и весь 3Д по сути, это вам не фотошоп).

С другой стороны есть взрослыя мальчики Максон и Автодеско. Ну и прям просится пара кнопок и промпт в ZBrush. Которые и сгенерят, и отретопят, и зашейдят. И можно будет это мять в ЗНАКОМОМ интерфейсе. А не вот в этих вот веб-поделках от программистов.

Но Максон как воды в рот набрал по поводу ИИ. Автодеск что-то вякнул про Бернини и затих.

Ну и тут я ожидаю, как обычно, что Адобченко всех пожрет.
Со своим Сабстансом. Прикупив по дороге пару стартапов.

@cgevent
Открытая лекция "Погружение в 3D CV".

На лекции вы узнаете:
- какие задачи решают в 3D
- почему таких задач становится больше
- с чего начать погружение в эту область
- почему CV-инженеру важно знакомиться с 3D
- что такое SLAM, SfM, SMPL, NeRF, 3D Gaussian Splatting и другие баззворды

А также познакомитесь с программой курса «3D Computer Vision» и получите скидку

Лекция пройдет в субботу, 28 сентября, 18:00 МСК

Всем, кто зарегистрируется на встречу, отправят miro-схему с описанием направлений и инструментов в 3D — поможет быстро сориентироваться и погрузиться.

Регистрируйтесь по ссылке
Когда пришел AGI..

@cgevent
На text-to-image арене появилась совершенно новая и непонятная модель для генерации картинок blueberry_0, которая побивает всех на свете, включая FLUX и Ideogram

Это тонкий троллинг strawberry или это опенАИ сами троллят?

Судя по тому, как она уходит от фотореализьма, это может быть та самая Dalle-4o, про которую нам намекали в мае.

Но качество (по крайней мере на арене.. ну такое).

Давайте сюда теории заговора, что это за модель?

И нет, это не Mystic v2, Мистик - это просто Флюкс с украшалками.

https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

На реддите народ бьется в истерике уже сутки...
https://www.reddit.com/r/StableDiffusion/comments/1fp6w4n/_/

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Боже, это невыносимо прекрасно.

ПостметаИИрония.

Клинг тоже художник, он так видит происходящее

@cgevent
#ябвзял

Тут прошли
утечки про RTX 5090.

Самое главное - 32 Гига видео-памяти.
Не скажу, что много, для наших ИИ-нужд хорошо бы смотрелось 48 Гиг.

32GB of GDDR7 memory on a 512-bit bus, with 21,760 CUDA cores.

Блок питания вам понадобится еще мощнее, плюс 150W к потреблению, относительно 4090.

Сроки? На CES 2025 в январе будут новости про это.

p.S. 5080 с 16гиг VRAM точно не имеет никакого смысла.
Automatic1111 только для озвучки.

Тут в коментах прошли вопросы про TTS.

Смотрите, вот для моделей генерации картинок есть Web интерфейсы типа Forge, Automatic или Fooocus
Для запуска разных LLM есть LM Studio, Ollama или, простихоспади, Убабуга.
Оказывается есть аналогичный интерфейс для звука: для запуска опен-сорсных озвучивателей текста, клонирования голоса и даже генерации музыки.
Проект не новый, но недавно хорошо обновился. Причем там есть поддержка целого выводка моделей:
Bark (protoSuno), MusicGen + AudioGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, MAGNeT, Stable Audio, Maha TTS, MMS, и других..

https://github.com/rsxdalv/tts-generation-webui
https://rsxdalv.github.io/tts-generation-webui/

Ну и если вы гик, то загляните в Silly Tavern, пропустить ллм-другую с tts наперевес.
https://github.com/SillyTavern/SillyTavern

@cgevent
2024/09/27 11:09:03
Back to Top
HTML Embed Code: