Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
1909 - Telegram Web
Telegram Web
Forwarded from vc.ru
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики Arc представили ИИ-браузер Dia, который может выполнять действия за пользователя: например, отправить письмо или добавить товар в корзину.

Его планируют выпустить в 2025 году

vc.ru/ai/1686645
Forwarded from Нейродвиж
This media is not supported in your browser
VIEW IN TELEGRAM
Adobe показали прикольную фичу MultiFoley — генерацию ЗВУКОВ под ваше видео.

Идея бомбезная: можно не просто генерировать соответствующие звуки, но и что-то сюрреалистичное, но воспринимаемое правдоподобно. Например, рычащего как лев кота 🤬

Кроме того, модель теперь умеет принимать в качестве промта другое аудио (как референс), а также удлинять аудио (очень удобно, если где-то запороли звук).

Кода нет (это же Адобе), ждем в продуктах компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz
Forwarded from vc.ru
Разработчики генератора видео Dream Machine выпустили новые модели для создания фото: Photon и облегчённую Photon Flash.

Компания утверждает, что их показатели лучше Midjourney. Доступны через API по цене от $0,002 за изображение

vc.ru/ai/1688282
Forwarded from addmeto (Grigory Bakunov)
Гугл анонсирует свою text2video модель Veo и обновление text2image Imagen 3. Видео любопытные, но местами даже в демках видны характерные нейропсиходелические глюки https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai
Forwarded from Сиолошная
Игровые движки и игроделы — В С Ё!

Google опубликовали блогпост (не статью и не веса) про Genie 2. Про первую версию я аж хотел написать лонг, но как-то всё забылось в потоке новостей, и силы ушли на Sora.

Genie — модели, которые генерируют видеокадры из игры. Они принимают на вход сигналы вашей клавиатуры или мышки, и рисуют картинку следующих кадров исходя из команд. Вторая версия сильно прокачалась в качестве (первая была во многом про 2D-игры) и консисентности. Весь геймплей в роликах к посту сгенерирован. Что отмечают гуглеры:
— Long horizon memory (если отвернуться от пространства, а затем повернуться обратно, то будет примерно то же самое, а не абсолютно новое)
— Long video generation with new generated content (до минуты генераций)
— 3D structures
— Object affordances and interactions
— Character animation
— NPCs (другие персонажи в игре)
— Physics
— Gravity
— Lighting
— Reflections (RTX не нужен, но GPU не выбрасываем 😏)

В конце блогпоста самое интересное: в эти симулированные миры поместили SIMA, агента для игр, про которого Google выпустили статью с полгода назад. SIMA контролирует «клавиатуру и мышь» при генерации Genie 2, и две нейронки как бы играют сами в себя.

> we believe Genie 2 is the path to solving a structural problem of training embodied agents safely while achieving the breadth and generality required to progress towards AGI.

😭 лонг про Sora вспомнили?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from iPhones.ru
OpenAI выпустила полную версию самой мощной модели GPT o1. Подписка стоит $200 в месяц

Она предоставляет доступ к «эксклюзивной» версии модели o1 (использует больше вычислительных мощностей для предоставления «лучшего» ответа). При этом подписчики Pro-версии смогут использовать модель GPT-4o и голосовой режим.

Останется и обычная подписка за $20, в которой будут все те же возможности, что и в Pro, но без «эксклюзивной» версии o1.

Начиная с 5 декабря, OpenAI будет представлять новые функции и продукты в течение 12 дней. Предполагается, что среди них может быть нейросеть для генерации видео Sora.

https://www.iphones.ru/iNotes/openai-vypustila-polnuyu-versiyu-samoy-moshchnoy-modeli-gpt-o1-podpiska-stoit-200-v-mesyac

#новости@iphonesru
Forwarded from Denis Sexy IT 🤖
Вот что показали сегодня:

O1/O1-mini теперь можно файнтюнить – то есть можно взять свой датасет, условно научный или юридический (или любой другой), и сделать лучшую модель в узкой области; самое интересное, что уже 20 (!) примеров решенных задач датасета, уже достаточно для файнтнюна модели в узкую область

Обычно такие модели дороже в инференсе, и сам файнтюн стоит денег – доступно будет в следующем году

А я, тем временем, продолжаю тестировать o1 pro – буду переодически писать апдейты
Forwarded from Нейродвиж
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft с ноги залетают в генерацию 3D-моделей с новым релизом Trellis, который уделывает конкурентов 😱

Работает просто: закидываем изображение или пишем текстовый промт и получаем видео-демку с тем, какую карту глубины сделала нейросеть. Если все устраивает — можно запускать генерацию 3D-объекта.

Пока есть только моделька для генерации из изображений, вот тут бесплатная онлайн-демка, а вот ссылка на GitHub. Локально просит аж 16 ГБ видеопамяти.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Первые выводы про o1 Pro

TL;DR
: o1 Pro — модель, нацеленная на глубину и точность ответов, особенно полезная для людей, уже разбирающихся в теме и способных оценить качество выдачи. Без чётких вводных модель может быть поверхностной, но при грамотных запросах способна дать действительно ценные инсайты. Но это все еще не AGI.

— o1 Pro ориентирована на специалистов, глубоко погружённых в свою область. Она легко разбирает сложные научные данные, тексты любой сложности и код, но настоящую пользу приносит тем, кто может понять, где модель поверхностна или ошибается, и скорректировать её ход мыслей.

— Я использовал эту модель в бизнесе и пытался применить её для решения маркетинговых задач. По умолчанию она выдавала лишь «первого уровня» посылы, просто перечисляя фичи. Но опытный маркетолог знает, что клиенты покупают не функционал, а историю и идею. Например, Apple не говорит: «Мы добавили камеру получше», а показывает, как люди сохраняют важные моменты. Чтобы o1 Pro смогла сделать то же самое, нужно направлять её, задавая правильные вопросы и требуя глубины, а не просто сводки преимуществ.

— Визуальный анализ у o1 Pro серьёзно продвинулся: она лучше распознаёт детали на изображениях по сравнению с предыдущими моделями, которые я пробовал.

— При создании художественных текстов (я пробовал сделать что-то вроде интерактивной текстовой игры с зомби-апокалипсисом) o1 Pro пишет шикарно. Она хорошо держит логику сюжета, помнит детали и героев, не скатывается в бессвязный поток. Однако без новых вводных идей от пользователя сама модель не двигается дальше и не создаёт неожиданные сюжетные повороты, полагаясь на креативность пользователя.

— В написании кода o1 Pro не лучше других моделей. Ничего сверхъестественного в её программных навыках я не заметил, еще и учитывая как долго она думает.

— Модель обрабатывает запросы довольно долго: иногда около минуты, а порой и до пяти. Это значит, что быстро спросить у неё, например, рецепт прямо в магазине, не получится. Скорее, o1 Pro ассистент для вдумчивого взаимодействия, когда вы можете задать вопрос и заняться своими делами, пока она «думает».

— В плане факт-чекинга o1 Pro показала себя с лучшей стороны. За всё время тестирования мне не удалось поймать её на откровенной фактической ошибке. Если модель сталкивается с сомнительной информацией, она либо отказывается отвечать, либо указывает на неточность, демонстрируя глубину самопроверки, либо говорит мне, что я не прав.

— Этот пост написан моделью o1 Pro по моей надиктовке, без последующего редактирования. На подготовку текста ушло примерно столько же времени, сколько заняло бы самостоятельное наборное редактирование с ноутбука.

Вывод: Пока у меня есть сомнения насчёт того, окупит ли o1 Pro стоимость в 200 долларов в месяц. Нынешняя версия «обычной» O1 решает многие схожие задачи не хуже. Посмотрим, что будет дальше, когда OpenAI покажет все обновления.
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
По Sora утекло новое видео, говорят показывают v2

* 1-минутные видео на выходе
* текст в видео
* текст+изображение в видео
* текст+видео в видео

Не долго мы жили без cam-rip в АИ видео ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from vc.ru
This media is not supported in your browser
VIEW IN TELEGRAM
Reddit начал тестировать Reddit Answers — ИИ-поисковик внутри соцсети. Ему можно задавать вопросы в свободной форме, а он найдёт ответ среди публикаций и обсуждений пользователей.

Тестируют пока в США и на английском языке

vc.ru/ai/1699466
Forwarded from Аишка
Сегодня делимся кое-чем прикладным: вероятно, все знают и пользуются chatGPT, но гораздо меньше людей пользуются не менее полезным и функциональным (а в ряде случаев даже более удобным) сервисом — Le Chat от Mistral AI.

Это французская компания, основанная бывшими сотрудниками Meta и Google DeepMind. Она получила финансирование от Франции и венчурных фондов на «импортозамещение», то бишь создание европейского аналога chatGPT. Важно, что моделями компания делится со всеми — они опенсорсные.

Не так давно Mistral выпустили чат-бота Le Chat, который работает на их самой крутой модели, сопоставимой по возможностям с GPT4.

Но помимо сопоставимого уровня ответов у сервиса есть несколько других ключевых преимуществ:
• Доступен в России без ВПН
• Полностью бесплатный (по крайней мере, пока)
• Позволяет бесплатно генерировать картинки в чате через Flux (одну из лучших реалистичных моделей на рынке), без ограничений по количеству. Кое-кто из пользователей даже смог обойти цензуру и добиться генерации изображений 18+
• Даёт неограниченное количество бесплатных запросов по API (при условии, что вы делитесь данными с компанией)

Конечно, сервис не сравнится с возможностями «думающих» моделей, о которых мы напишем чуть позже, но даёт бесплатный и неограниченный доступ к одной из самых лучших языковых моделей на сегодняшний день.
2025/07/14 04:07:53
Back to Top
HTML Embed Code: