Generative Ai

Forwarded from Denis Sexy IT 🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K views06:46

Forwarded from Not Boring Tech

0:25

🌟 На GitHub вирусится ScreenPipe — ваш личный ИИ-ассистент, который беспрерывно записывает экран ПК вместе с микрофоном и сохраняет контекст всей (!) вашей цифровой активности.

Нейронка напишет саммари рабочего дня, подведёт итоги созвона, составит логи разработки, ответит на сообщения на основе прошлых переписок и даже продолжит кодить с того места, где вы остановились.

Важно: тулза хранит все данные локально на устройстве и работает без интернета! Джарвис уже лежит тут.

@notboring_tech

1.3K views13:12

Читать полную подборку примеров

@ai_machinelearning_big_data

#ai #ml

Forwarded from Machinelearning

🌟 Google Cloud собрала 321 реальный пример использования GenAI от ведущих мировых компаний.

Большая подборка примеров внедрения генеративного ИИ от ведущих компаний, правительств, исследовательских институтов и стартапов по всему миру. Они демонстрируют, как организации используют ИИ-агентов для повышения производительности, автоматизации процессов и улучшения клиентского опыта, что в итоге приводит к ощутимой отдаче от инвестиций.

▶️ Розничная торговля

🟢Best Buy использует Gemini для создания виртуального ассистента, способного решать проблемы с продуктами и управлять доставками;
🟢BrainLogic использует Claude для персонального ИИ-ассистента Zapia, ориентированного на латиноамериканский рынок;
🟢Carrefour Taiwan разработал AI Sommelier, который помогает клиентам выбирать вино.

▶️ Автоконцерны

🟠Continental интегрировал разговорный ИИ в Smart Cockpit HPC, решение для управления речевыми командами в автомобиле;
🟠General Motors улучшила OnStar с помощью разговорного помощника, который лучше распознают намерения собеседника;
🟠Volkswagen создал виртуального ассистента в приложении myVW, который помогает водителям изучать руководства и задавать вопросы.

▶️ Здравоохранение

🟢Freenome разрабатывает диагностические тесты на основе ИИ для раннего выявления рака;
🟢Orby применяет ИИ и нейротехнологии для реабилитации пациентов.

▶️Финансы

🟠NG Bank разработал чат-бота для поддержки сотрудников, чтобы повысить качество ответов на запросы клиентов.
🟠Scotiabank использует Gemini для персонализации клиентского опыта.

▶️Производство

🟢Motorola использует Gemini и Imagen для улучшения UX/UI смартфонов;

🟢

Samsung применяет Gemini Pro и Imagen 2 в Galaxy S24 для обработки текста и редактирования изображений;
🟢ScottsMiracle-Gro создал ИИ-агента для консультаций по садоводству.

▶️ Госсектор

🟠Justicia Lab разрабатывает AI-помощника для упрощения юридических процессов для иммигрантов;
🟠Министерство труда Катара запустило платформу Ouqoul для поиска работы выпускниками-экспатами.

▶️ Медиа

🟢Formula E может создает 2-минутные подкасты на любом языке из двухчасовых комментариев.
🟢Globant разработала Advance Video Search для поиска контента по кадрам.

🔜

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views13:15

Открытие компании в США Делавер осилили! Делали через Clerky и смогли недавно открыть счет в банке Brex, теперь подключаем платежи через Stipe. Почтовый адрес через anytimemailbox.com

Компанию назвали SuperDuperAi Corp! Самый интересный момент, что мы выбрали…

Forwarded from Life2film

Что это за канал и для кого?
Делюсь опытом работы над стартапом SuperDuperAi.co - генератором Ai видеоисторий.
Целюсь сделать из него агента-режиссера для визуализации любой идеи.
Рефлексирую на этом пути, рассказываю новости Ai.
Подробнее

Кто я?
Рустам Салаватов - https://www.linkedin.com/in/rustam-salavatov/
В инстаграм лайфстайл https://instagram.com/life2film
Автор телеграм канала Generative Ai

Я — предприниматель и инженер по искусственному интеллекту, CTO.
10 лет назад LIFE2FILM.com — сервиса для автоматического видео-монтажа и анализа с миллионом пользователей, но сейчас сфокусирован на создание SuperDuperAi.co.
Также работаю CTO в финтех-стартапе Zenpulsar.com

Жили раньше в Башкортостане (РФ), сейчас с семьей живем в Турции (3ий год , получили визу цифрового кочевника), но планирую переезд в США (новости об этом тоже публикую). Моя жена Алина - ведет активно блог про жизнь в Турции @miralinka_life

Также интересуюсь экологией, кино и созданием технологий меняющих мир. Активизм.

Избранные публикации:
* Как открывали компанию в Делавер, США https://www.tgoop.com/life2film/250
* Как создать своего персонажа https://www.tgoop.com/life2film/390
* Сравнение image2video генераторов https://www.tgoop.com/life2film/389
* Будущее ИИ кино от Бена Аффлека https://www.tgoop.com/life2film/370
* Канал про ИИ фильмы https://www.tgoop.com/life2film/344
* Грант 150.000$ от Майкрасофт для стартапов https://www.tgoop.com/life2film/312
* Про РОСТ и ПРОДАЖИ в стартапе https://www.tgoop.com/life2film/436

Общие темы:
* Что я думаю про фильм Субстанция https://www.tgoop.com/life2film/360
* GPT ассистент для изучения английского https://www.tgoop.com/life2film/346
* Тестирование Junior программистов https://www.tgoop.com/life2film/343
* Как меняется счастье https://www.tgoop.com/life2film/293
* Кто ты NPC или Герой? https://www.tgoop.com/life2film/280 и https://www.tgoop.com/life2film/276

SuperDuperAi посты:

Пример видео для нашего адвайзера https://www.tgoop.com/life2film/367
Пример рождественнсого видео https://www.tgoop.com/life2film/386

Тренировка модели на своих фото https://www.tgoop.com/life2film/411
Статистика по пользователям - 1500 https://www.tgoop.com/life2film/287

А еще специально для подписчиков канала:
Скидка 19$ https://www.tgoop.com/life2film/380

Всегда открыт к общению и сотрудничеству.
Ищу сейчас различные Use-case где полезно использовать мой опыт по работе с генеративным ИИ.

Life2film

864 views13:51

0:21

LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync

Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.

первое видео на французском - оригинал, второе на английском - липсинк

Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)

#lipsync #speech2video #video2video

875 views13:04

Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding

Forwarded from Machinelearning

🖥

nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌

GitHub

📌

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views21:31

0:06

Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models

NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.

Хронометра; 121 кадр

Позиционируется для разработчиков, в помощь в симуляции мира.

Лицензия на бесплатное коммерческое использование.

Нужно 80GB VRAM

Дают попробовать!
Примеры видео спрятаны в демо

Гитхаб
Веса
Демо

#text2video #image2video #simulation #text2world #image2world

1.2K views14:00

0:04

🎬 TransPixar: генерация видео с прозрачным фоном от Adobe

TransPixar — новый open-source проект, разработанный Adobe, предназначенный для генерации видео с прозрачным фоном. Он построен на основе генератора CogVideoX и позволяет создавать RGBA-видео из текстовых описаний, что особенно полезно для визуальных эффектов и композитинга.

🔗 [GitHub репозиторий](https://github.com/wileewang/TransPixar)

1.1K views08:47

0:21

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Оценка позы по изображению и по видео

Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб

#poseestimation #image2pose #video2pose

1.1K views20:32

1:03

Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks

Новое поколение липсинка от Baidu

Работает и с головными уборами.
Анимирует не только лицо но и фон.

Все потому что внутри претрейн Cogvideox-5b-i2v

Код
Веса

#lipsync #talkinghead #humananimation #portraitanimation

1.3K views07:37

🎓 Бесплатный сертифицированный курс по агентам от Hugging Face!

- Понимание агентов: Изучение основ работы AI-агентов, включая восприятие окружающей среды, логические рассуждения и выполнение действий.

- Работа с фреймворками: Освоение популярных инструментов, таких как LangChain, LlamaIndex и smolagents, для создания сложного поведения агентов.

- Реальные приложения: Примеры использования агентов для автоматизации SQL-запросов, генерации кода и суммаризации сложных документов.

- Сертификация: Получение сертификата после завершения курса, реализации практического кейса и прохождения итоговой оценки.

Курс предназначен для разработчиков, дата-сайентистов и всех, кто интересуется будущим AI. Начало курса запланировано на февраль.

🔗 [Записаться на курс](https://bit.ly/hf-learn-agents)

1.0K views09:04

Forwarded from Machinelearning

🖥

Google опубликовали один из лучших официальных гайдов по ИИ-агентам. И его действительно стоит прочитать.

В нем содержится все, что вам нужно знать:
> Описание агентов, компонентов и когнитивных архитектур.
> Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных.
> Описываются методы обучения для повышения производительности агентов.
> Описываются методы создания агентов с использованием LangChain и LangGraph

▪ Читать гайд

@ai_machinelearning_big_data

#aiagents #ai #llm #ml #machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

757 views09:46

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 DeepSeek-R1 и DeepSeek-R1-Zero

Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.

🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.

🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.

🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.

🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.

🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html

558 views14:42

Forwarded from Data Secrets

3:57

Media is too big

Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс

Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.

Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.

На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.

Статья здесь

625 views19:13