Generative Ai 964 - Telegram Web

https://stability.ai/news/introducing-stable-diffusion-3-5

Stability AI выпустила Stable Diffusion 3.5 !!!

Включая Large и Turbo версии, которые работают на потребительском железе.
Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face.
Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds.

Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.

Introducing Stable Diffusion 3.5 — Stability AI

Today we are introducing Stable Diffusion 3.5. This open release includes multiple model variants, including Stable Diffusion 3.5 Large and Stable Diffusion 3.5 Large Turbo, and as of October 29th, Stable Diffusion 3.5 Medium.

🔥4

936 viewsedited 06:58

Stable Diffusion 3.5 поддерживается уже в ComfyUI !

Модели:
* Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель.
* Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага.
* Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя.

https://blog.comfy.org/sd3-5-comfyui/
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main

ComfyUI Now Supports Stable Diffusion 3.5!

Following our exciting V1 launch yesterday, we're excited to share that Stable Diffusion 3.5 is now supported in ComfyUI for local inference.

🔥2

1K viewsedited 07:56

Forwarded from Denis Sexy IT 🤖

This media is not supported in your browser

VIEW IN TELEGRAM

Вышел мини-апп agent.exe, который все еще не просто ставится, но который позволяет управлять агенту не виртуальной машиной, а обычной — своей

Вышло забавно, я его запустил и ввел на русском «Найди дешевые билеты в Париж» — модель, видимо, из-за тренировки и языка на котором пришел запрос — сама пошла в Авиасейлс и ввела там место отправки Москва (опять же, модель додумала из-за языка)

Наглядный байас модели на ровном месте и в очередной раз респект СММ-щикам Авиасейлс, которые себя не только в интернете завирусили, но и датасеты Anthropic забили ассоциацией слова «авиабилеты» на русском = Авиасейлс

Редко кто так громко интернет засоряет 😮

P.S. Не ускоряю, чтобы вы скорость видели

P.P.S. Если пропустили, вот тут про то что это такое: https://www.tgoop.com/denissexy/8867

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

1.03K views19:55

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.

📌Лицензирование: MIT License.

🟡

🟡

Сообщество в Discord

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4🔥2

1.74K views06:49

Forwarded from Life2film

Media is too big

VIEW IN TELEGRAM

Тизер sci-fi сериала Azaliia - про роботов клонов.
Дочь хотела стать актрисой, а я режиссером! 😊

А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.

Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.

По мере реализации буду выкладывать результаты в канале @life2film.

Рад буду идеям для улучшения или колобрации.

❤1

940 views13:44

Forwarded from Life2film

Media is too big

VIEW IN TELEGRAM

#azaliia #aifilm

Попробовал сгенерировать ambient трек, немного обработал его. Но в целом мне нравится, для атмосферы точно можно использовать. Биты пока еще не получаются красиво, но их можно накладывать отдельно.

Нашел классного автора, который провел эти эксперименты по sound-design и взял за основу его workflow (comfy, stable-audio).

В комментариях приложил мой workflow.

https://sandner.art/stable-audio-open-custom-soundscapes-and-sound-design-locally/https://sandner.art/stable-audio-open-custom-soundscapes-and-sound-design-locally/

### Music Composition in the Style of *Blade Runner* (1980s Cyberpunk)
**Mood:** Nostalgic, atmospheric, mysterious, with a touch of melancholy and awe.

Sounds:

Deep analog synth pads, resonant bass, echoing electronic drums, shimmering arpeggios, lush reverb, ambient soundscapes.

Atmosphere:

Futuristic, dystopian, urban nightscape illuminated by neon lights, with a sense of longing and technological wonder.

Inspiration:

*Blade Runner* soundtrack by Vangelis, 80s synthwave, retro-futurism, noir sci-fi films.

Additional notes:

Use a combination of slow, emotional melodies on vintage synths with spacious reverb, deep bass tones that resonate, and subtle, echoing percussion that fades into the distance. Focus on building an immersive, cinematic atmosphere with layers of sound.

906 views16:20

Forwarded from Machinelearning

⚡️

Опубликована модель Stable diffusion 3.5 Medium.

Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.

Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.

SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.

Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.

SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.

Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A happy woman laying on a grass",
    num_inference_steps=28,
    guidance_scale=3.5,
).images[0]
image.save("woman.png")

📌Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.

🟡

Страница проекта

🟡

🟡

🟡

🖥

GitHub

#AI #ML #Diffusion #SD3_5Medium #StabilityAI

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

1.03K views18:37

Forwarded from Технологии | Нейросети | Боты

Media is too big

VIEW IN TELEGRAM

🎬

Новый опенсорс видеогенератор — Allegro.

Он умеет генерировать видео 720p в 15fps, пока только text-2-video. В будущем планируют завезти image-2-video, контроль движений и создание видео на основе раскадровок.

Из плюсов — тут почти нет цензуры, ограничения минимальные, а для установки нужна карта с 9,3 ГБ памяти.

• Подробнее
• Github
• Huggingface

#neural #нейросети

@aiaiai

Please open Telegram to view this post

VIEW IN TELEGRAM

1.02K views18:19

This media is not supported in your browser

VIEW IN TELEGRAM

Runway представила расширенные функции управления камерой в своей модели Gen-3 Alpha Turbo, значительно расширив возможности пользователей по созданию AI-генерированных видео. Теперь доступны точные настройки движений камеры, включая горизонтальные облеты вокруг объектов, динамические зумы и плавные перемещения камеры, что позволяет создавать более захватывающий и кинематографичный контент.

Для эффективного использования этих функций рекомендуется включать подробные инструкции по движению камеры в ваши текстовые запросы. Например, указание таких движений, как "tracking shot", "dolly shot" или "pan shot", поможет AI сгенерировать желаемый визуальный эффект. Кроме того, определение углов съемки, таких как "low angle", "high angle" или "overhead", позволит еще точнее настроить результат.

👍2

900 views09:51

Forwarded from Ai Films

🌟 Runway запускает The Hundred Film Fund для поддержки фильмов, созданных с помощью ИИ! 🌟

✨ Прекрасные новости для креативных профессионалов: Runway объявил о запуске The Hundred Film Fund — фонд объемом $5M (с возможностью увеличения до $10M) для создания и поддержки 100 фильмов с использованием технологий ИИ. Этот фонд открыт для проектов в различных форматах: полнометражные фильмы, короткометражки, музыкальные клипы, экспериментальные проекты и многое другое. 🎥💡

Подробности о финансировании:

Гранты от $5K до $1M+
Дополнительно $2M в виде кредитов Runway для награжденных проектов
🔹 Присоединяйтесь к лидерам индустрии
🔹 Среди участников консультационного совета – такие уважаемые специалисты, как Джейн Розенталь (Tribeca), Кристина Ли Сторм (Телевизионная академия) и Стефан Зонненфельд (Company 3), которые будут направлять и поддерживать выбранные проекты.

Кристина Ли Сторм поделилась: «Я рада быть в совете, чтобы помочь режиссерам по всему миру исследовать новые методы повествования с инструментами ИИ от Runway».

Вы режиссер, продюсер или сценарист, готовый рассказать новую историю с помощью технологий ИИ? Подавайте заявку

https://runwayml.com/news/hundred-film-fund

Runway News | Runway launches fund to provide artists resources to make one hundred films

We believe that the best stories are yet to be told, but that traditional funding mechanisms often overlook new and emerging visions within the larger industry ecosystem. With that in mind, we are excited to announce the introduction of The Hundred Film Fund.…

👎1

1.08K views10:52

🚀 Docling: Мощный инструмент для анализа и преобразования документов 🚀

Docling — это гибкое и удобное решение для парсинга документов с поддержкой множества популярных форматов и легким экспортом в нужный формат. 💡

Основные возможности
🗂️ Поддержка популярных форматов документов (PDF, DOCX, PPTX, изображения, HTML, AsciiDoc, Markdown) с экспортом в Markdown и JSON
📑 Углубленный анализ PDF-документов, включая макет страниц, порядок чтения и таблицы
🧩 Унифицированный и выразительный формат DoclingDocument для представления данных
📝 Извлечение метаданных: заголовок, авторы, ссылки, язык и многое другое
🤖 Интеграция с LlamaIndex 🦙 и LangChain для мощных RAG / QA приложений
🔍 Поддержка OCR для сканированных PDF
💻 Удобный интерфейс CLI

https://github.com/DS4SD/docling

GitHub - docling-project/docling: Get your documents ready for gen AI

Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.

🔥4

1.44K views13:55

Forwarded from Derp Learning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Для mochi запилили ~~редактор mochi~~ comfyui video2video ноды. Заводится локально на 24гб vram.
До runway далеко, и на длинном контексте скорее всего будет разваливаться, как animatediff/svd
Но начало положено, и если кто-то присобачит туда хаки для длинного контекста, будет и у нас runwayml дома!

Это 480p модель, поэтому работает нормально только с видосами в районе 848х480. Работает через unsampling (ddim inversion).

comfyui mochiedit
comfyui mochiwrapper
models

@derplearning

👍1

1.27K views06:43

Instructor: Самая популярная библиотека для структурированных выводов LLM

Instructor — это ведущая библиотека Python для работы со структурированными выводами крупных языковых моделей (LLM), с более чем 600,000 загрузками в месяц. Построенная на основе Pydantic, она предлагает простой, понятный и удобный API для управления валидацией, повторами запросов и потоковыми ответами. С этой библиотекой ваши LLM-процессы станут намного эффективнее!

🚀 Основные возможности

* Модели ответов: Определяйте структуру выводов LLM, используя модели Pydantic
* Управление повторами: Легко настройте количество попыток для стабильности запросов
* Валидация: Убедитесь, что ответы LLM соответствуют вашим требованиям
* Поддержка потоков: Работайте с списками и частичными ответами без лишних сложностей
* Гибкие бэкенды: Интегрируйтесь с разными LLM-поставщиками, не ограничиваясь только OpenAI

https://github.com/instructor-ai/instructor

🔥3

1.53K viewsedited 10:57

Media is too big

VIEW IN TELEGRAM

🎥 X-Portrait 2 от ByteDance: анимация статичных изображений с высокой точностью

Что нового
X-Portrait 2 — продвинутая AI-модель от ByteDance, преобразующая статичные портреты в реалистичные анимации, добавляя динамичные выражения лица на основе одного референсного видео. Технология точно захватывает и переносит тончайшие выражения, такие как гримасы, мимика и даже движение языка.

Ключевые возможности
- Анимация с детализированной мимикой: перенос мимики с видео на фото, включая мелкие движения лица.
- Высокая точность движений: распознает и обрабатывает сложные выражения, передавая даже минимальные изменения.
- Поддержка различных стилей: совместима с реалистичными и мультяшными изображениями, что расширяет её использование в анимации и создании виртуальных аватаров.

Применение
Подходит для создания анимации в кино, играх, на платформах вроде TikTok как бесплатная альтернатива платным решениям для аватаров. Доступна на сайте ByteDance.

🔗 [X-Portrait 2](https://byteaigc.github.io/X-Portrait2/)

👍2🔥1

1.11K views15:41

Forwarded from Machinelearning

🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.

TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.

TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.

Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.

TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.

Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.

🟢

🟢

TIPO-500M.

▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.

📌Лицензирование : Kohaku License 1.0

🟡

Коллекция моделей на HF

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #T2I #TIPO #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥1

1.36K views18:01

2025/07/09 03:24:01
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>