This media is not supported in your browser
VIEW IN TELEGRAM
Тут кто-то спрашивал недавно про хороший способ клонировать голос
Вот одна из лучших моделей (а скорее всего даже лучшая) на данный момент, вышла в начале месяца обновленная OpenAudio S1.
Можно быстро клонировать голос, поддерживает кучу эмоций. Тестить тут.
#voice@TochkiNadAI
Вот одна из лучших моделей (а скорее всего даже лучшая) на данный момент, вышла в начале месяца обновленная OpenAudio S1.
Можно быстро клонировать голос, поддерживает кучу эмоций. Тестить тут.
#voice@TochkiNadAI
🔥10 7👍3👎2
This media is not supported in your browser
VIEW IN TELEGRAM
От первого лица к третьему лицу
UFM (Unified Flow-Matching) умеет искажать изображение так, что кажется, будто вы видите сцену с другого ракурса. Это без 3D, с помощью потока и соответствий.
Эта модель решает сразу две задачи: определяет оптический поток (где и как двигаются пиксели между кадрами) и находит соответствия между разными изображениями (даже если они сняты с разных углов или сильно отличаются по масштабу)
Раньше эти задачи решались посложнее, с кучей стадий. Эта модель:
– на задачах оптического потока точнее на 28% по сравнению с предыдущими SOTA
– на задачах сопоставления ошибок меньше на 62%, и при этом работает почти в 7 раз быстрее.
Внутри UFM сначала использует DINOv2, чтобы закодировать изображения, а потом трансформер сразу выдает поток и маску видимости. Без всяких сложных пайплайнов работает быстро и обучается проще.
Можно потестить, есть демо на HF и код.
UFM (Unified Flow-Matching) умеет искажать изображение так, что кажется, будто вы видите сцену с другого ракурса. Это без 3D, с помощью потока и соответствий.
Эта модель решает сразу две задачи: определяет оптический поток (где и как двигаются пиксели между кадрами) и находит соответствия между разными изображениями (даже если они сняты с разных углов или сильно отличаются по масштабу)
Раньше эти задачи решались посложнее, с кучей стадий. Эта модель:
– на задачах оптического потока точнее на 28% по сравнению с предыдущими SOTA
– на задачах сопоставления ошибок меньше на 62%, и при этом работает почти в 7 раз быстрее.
Внутри UFM сначала использует DINOv2, чтобы закодировать изображения, а потом трансформер сразу выдает поток и маску видимости. Без всяких сложных пайплайнов работает быстро и обучается проще.
Можно потестить, есть демо на HF и код.
🤯21👍7🔥4🕊1
Любителям и любительницам детективных романов в реальной жизни.
Это сайт с компроматом на OpenAI, запущенный позавчера. Внутри архив с утечками и публичными расследованиями против компании.
Там и про отказ от некоммерческой миссии, и про AGI, как угрозу всему, и про токсичность Альтмана, которая портит атмосферу внурти.
Еще авторы материала предлагают направления для реформ, чтобы попытаться исправить ситуацию. Предлагают реформы у управлении, культуре прозрачности и безопасности и др.
Полистайте, вот сам архив.
Это сайт с компроматом на OpenAI, запущенный позавчера. Внутри архив с утечками и публичными расследованиями против компании.
Там и про отказ от некоммерческой миссии, и про AGI, как угрозу всему, и про токсичность Альтмана, которая портит атмосферу внурти.
Еще авторы материала предлагают направления для реформ, чтобы попытаться исправить ситуацию. Предлагают реформы у управлении, культуре прозрачности и безопасности и др.
Полистайте, вот сам архив.
✍13🔥9 5 4❤1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот и у HeyGen появился функционал для продукт плейсмента
Функция называется, как раз – Product Placement👽
– Загружаете фото продукта
– Выбираете аватар
– Добавляете свой сценарий
В общем-то так же, как и у этих ребят, которых недавно обсуждали.
Работает на основе гиперреалистичных жестов и синхронизации губ. Доступно всем на HeyGen, но чтобы было вайтлейбл - надо заплатить 30$.
#ecommerce@TochkiNadAI
Функция называется, как раз – Product Placement
– Загружаете фото продукта
– Выбираете аватар
– Добавляете свой сценарий
В общем-то так же, как и у этих ребят, которых недавно обсуждали.
Работает на основе гиперреалистичных жестов и синхронизации губ. Доступно всем на HeyGen, но чтобы было вайтлейбл - надо заплатить 30$.
#ecommerce@TochkiNadAI
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8 5👍4❤3
Поделитесь, кто-нибудь уже внедрил в свои задачи автоматизацию агентами, n8n и прочее?
Какие конкретные процессы удалось настроить и насколько вы стали счастливее?🙂
Какие конкретные процессы удалось настроить и насколько вы стали счастливее?🙂
👀14✍5🤝3
This media is not supported in your browser
VIEW IN TELEGRAM
Китайский Hailuo 02 (Minimax)
Интернет сходит с ума по роликам, где коты прыгают в бассейн с хорошей физикой брызг. Логичный шаг, на смену бабушкам из Veo 3 пришли коты-спортсмены.
Что умеет:
• Текст → видео и фото → видео.
• Держит одного персонажа во всех сценах (reference images).
• Чистые 5-10 сек на выходе за пару минут.
• Встроенные шаблоны титров, переходов, озвучки.
Hailuo работает в браузере и на мобилках, не требует 4090. Качество ≈ Veo 3.
При регистрации дают бесплатные токены.
#videoGenerative@TochkiNadAI
Интернет сходит с ума по роликам, где коты прыгают в бассейн с хорошей физикой брызг. Логичный шаг, на смену бабушкам из Veo 3 пришли коты-спортсмены.
Что умеет:
• Текст → видео и фото → видео.
• Держит одного персонажа во всех сценах (reference images).
• Чистые 5-10 сек на выходе за пару минут.
• Встроенные шаблоны титров, переходов, озвучки.
Hailuo работает в браузере и на мобилках, не требует 4090. Качество ≈ Veo 3.
При регистрации дают бесплатные токены.
#videoGenerative@TochkiNadAI
🔥28❤7 4👍2😁2🤝1
А видели, что Gemini понимает ваши загруженные видео?
Загружаете видео в Gemini, пишете: что происходит на видео?
И через минуту получаете разбор. ЛЛМ может:
– описать происходящее в кадре
– распознать место съёмки
– ответить на вопросы про конкретные фрагменты (например: что происходит на 1:45?)
– выдать краткое или подробное резюме
Нажмите «+» рядом с полем ввода и выберите «видео». Если оно не серое значит у вас работает.
Даже короткий клип анализирует неплохо.
#videosummary@TochkiNadAI
Загружаете видео в Gemini, пишете: что происходит на видео?
И через минуту получаете разбор. ЛЛМ может:
– описать происходящее в кадре
– распознать место съёмки
– ответить на вопросы про конкретные фрагменты (например: что происходит на 1:45?)
– выдать краткое или подробное резюме
Нажмите «+» рядом с полем ввода и выберите «видео». Если оно не серое значит у вас работает.
Даже короткий клип анализирует неплохо.
#videosummary@TochkiNadAI
🔥24👍12❤5🤯3🌭1
Эта штука умеет додумывать детали при экстремальном приближении
Метод берет одну фотку и превращает ее в зум-бесконечность. Сначала кадр апскейлится, потом модель генерирует логичное продолжение картинки с высоким разрешением, и так далее.
Я все ждал, что на каком-то этапе начнется генерация инфузорий, но увы.
Пощелкать примеры можно тут.
Метод берет одну фотку и превращает ее в зум-бесконечность. Сначала кадр апскейлится, потом модель генерирует логичное продолжение картинки с высоким разрешением, и так далее.
Я все ждал, что на каком-то этапе начнется генерация инфузорий, но увы.
Пощелкать примеры можно тут.
👍15🔥6 4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Забываем кнопку Delete 😎
Раньше удаленные чатики в ChatGPT удалялись из системы через 30 дней, а теперь эта практика приостановлена до особого распоряжения суда. Возможно теперь все эти удаленные запросы будут храниться ВЕЧНО.
Это все в рамках иска The New York Times, в конце 2023 года они обвиняли OpenAI и Microsoft в использовании статей NYT для тренировки моделей.
Но ОупенАИ называет это требование неуместным и подает апелляцию. Посмотрим!
Раньше удаленные чатики в ChatGPT удалялись из системы через 30 дней, а теперь эта практика приостановлена до особого распоряжения суда. Возможно теперь все эти удаленные запросы будут храниться ВЕЧНО.
Это все в рамках иска The New York Times, в конце 2023 года они обвиняли OpenAI и Microsoft в использовании статей NYT для тренировки моделей.
Но ОупенАИ называет это требование неуместным и подает апелляцию. Посмотрим!
Please open Telegram to view this post
VIEW IN TELEGRAM
6 инструментов для организации работы.
Подборка для продуктивных пташек.
1. ClickUp — мозговой центр + управление задачами
- Docs, Notepad и Clips собирают текст, аудио и видео в одном месте.
- ClickUp Brain за секунду сокращает конспекты, вытаскивает action-пункты, создает задачи.
- Двусторонние ссылки связывают заметки с задачами и проектами.
Цена: фримиум, планы от 7$ за пользователя.
Для команд, которым нужен единый хаб, и тех кто уже устал от Notion.
2. Notion — куда без папы
- Блоки drag-and-drop: текст, базы данных, доски, вики.
- Коллаборация в реальном времени и гибкие права доступа.
- Notion AI автодописывает списки дел и резюмирует страницы.
- Да и вообще, вы лучше нас всё знаете
Цена: базовый бесплатен, планы от $10.
Командам, строящие сложные вики и рабочие пространства под себя.
3. RemNote AI — тренер памяти в один клик
- Любая заметка, PDF или картинка мгновенно превращается в флэш-карточки
- Встроенная система интервального повторения сама подсовывает карточки в идеальный момент
- AI-чат объясняет непонятные темы, генерирует дополнительные вопросы и даже устраивает мини-квизы
- Двусторонние ссылки и иерархия «Rems» помогают видеть связи между понятиями и строить собственную базу знаний
Цена: есть бесплатный базовый план, Pro от $6 мес
Делает флеш-карточки из ваших заметок. Необычное решение для этой подборки, но это чтобы вы свои заметки лучше запоминали
4. Obsidian — граф идей для продвинутых
- Markdown-файлы на вашем диске + bi-directional-линки.
- Визуальная карта связей, Canvas для мозговых штурмов.
- Плагины и темы превращают Obsidian в мастер комнату.
Цена: бесплатно, для команд $50 год
Исследователям, авторам, гикам, строящие личный второй мозг с глубокими связями. Да, тут напрямую нет ИИ-шки, но умелые ручки могут прикрутить в рамках воркфлоу.
5. Joplin — open-source и полная конфиденциальность
- Rich Text или Markdown, клиппер для web-страниц.
- End-to-End Encryption, офлайн-доступ.
- Плагины, темы, совместное редактирование и публикация ссылкой.
Цена: базовый план от €2.99 мес.
Тем, кто ценит открытый код, шифрование и гибкую настройку под себя.
6. Reflect AI — GPT-память в кармане
- GPT-4o ускоряет ассистента, а Gemini-чат с окном 2 млн токенов переваривает весь ваш архив заметок
- Двойное ⌥/Alt включает встроенный транскрибер на базе Whisper: голос сразу превращается в текст прямо в нужном месте заметки.
- OCR вытягивает текст из фото и PDF; split-pane держит две заметки рядом; есть обратные ссылки
Цена: 14-дневный trial, затем $10 мес. Интересное решение для одного, у них еще расширение для хрома есть.
#productivity@TochkiNadAI
Подборка для продуктивных пташек.
1. ClickUp — мозговой центр + управление задачами
- Docs, Notepad и Clips собирают текст, аудио и видео в одном месте.
- ClickUp Brain за секунду сокращает конспекты, вытаскивает action-пункты, создает задачи.
- Двусторонние ссылки связывают заметки с задачами и проектами.
Цена: фримиум, планы от 7$ за пользователя.
Для команд, которым нужен единый хаб, и тех кто уже устал от Notion.
2. Notion — куда без папы
- Блоки drag-and-drop: текст, базы данных, доски, вики.
- Коллаборация в реальном времени и гибкие права доступа.
- Notion AI автодописывает списки дел и резюмирует страницы.
- Да и вообще, вы лучше нас всё знаете
Цена: базовый бесплатен, планы от $10.
Командам, строящие сложные вики и рабочие пространства под себя.
3. RemNote AI — тренер памяти в один клик
- Любая заметка, PDF или картинка мгновенно превращается в флэш-карточки
- Встроенная система интервального повторения сама подсовывает карточки в идеальный момент
- AI-чат объясняет непонятные темы, генерирует дополнительные вопросы и даже устраивает мини-квизы
- Двусторонние ссылки и иерархия «Rems» помогают видеть связи между понятиями и строить собственную базу знаний
Цена: есть бесплатный базовый план, Pro от $6 мес
Делает флеш-карточки из ваших заметок. Необычное решение для этой подборки, но это чтобы вы свои заметки лучше запоминали
4. Obsidian — граф идей для продвинутых
- Markdown-файлы на вашем диске + bi-directional-линки.
- Визуальная карта связей, Canvas для мозговых штурмов.
- Плагины и темы превращают Obsidian в мастер комнату.
Цена: бесплатно, для команд $50 год
Исследователям, авторам, гикам, строящие личный второй мозг с глубокими связями. Да, тут напрямую нет ИИ-шки, но умелые ручки могут прикрутить в рамках воркфлоу.
5. Joplin — open-source и полная конфиденциальность
- Rich Text или Markdown, клиппер для web-страниц.
- End-to-End Encryption, офлайн-доступ.
- Плагины, темы, совместное редактирование и публикация ссылкой.
Цена: базовый план от €2.99 мес.
Тем, кто ценит открытый код, шифрование и гибкую настройку под себя.
6. Reflect AI — GPT-память в кармане
- GPT-4o ускоряет ассистента, а Gemini-чат с окном 2 млн токенов переваривает весь ваш архив заметок
- Двойное ⌥/Alt включает встроенный транскрибер на базе Whisper: голос сразу превращается в текст прямо в нужном месте заметки.
- OCR вытягивает текст из фото и PDF; split-pane держит две заметки рядом; есть обратные ссылки
Цена: 14-дневный trial, затем $10 мес. Интересное решение для одного, у них еще расширение для хрома есть.
#productivity@TochkiNadAI
🔥12❤7👍5👌1
Imagen 4 от Google стал полностью бесплатным
Это приличный text-to-image генератор, который гугл показали в мае.
Теперь в обеих моделях (Imagen 4 и 4 Ultra) можно генерировать бесплатно внутри AI Studio.
Я вот погенерил немножко, погонял обе (прикладываю полюбоваться). Ultra лучше читает промпт, особенно, если он длинный.
#imageGenerative@TochkiNadAI
Это приличный text-to-image генератор, который гугл показали в мае.
Теперь в обеих моделях (Imagen 4 и 4 Ultra) можно генерировать бесплатно внутри AI Studio.
Я вот погенерил немножко, погонял обе (прикладываю полюбоваться). Ultra лучше читает промпт, особенно, если он длинный.
#imageGenerative@TochkiNadAI
👍13❤5🔥3 2👏1