Forwarded from Борис опять
Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024.
Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.
#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.
Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.
В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.
Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.
Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.
Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.
Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.
Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.
Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.
#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.
Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.
В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.
Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.
Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.
Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.
Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.
Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.
arXiv.org
Florence-2: Advancing a Unified Representation for a Variety of...
We introduce Florence-2, a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. While existing large vision models...
❤3👍1
Forwarded from gonzo-обзоры ML статей
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
newsletter.languagemodels.co
The Illustrated DeepSeek-R1
A recipe for reasoning LLMs
Forwarded from эйай ньюз
OpenAI выпустили o3-mini - бесплатно
Лимиты бесплатным пользователям пока непонятные, Pro подписчикам дают безлимит, Team и Pro - 150 сообщений в день. Также к o3-mini, в качестве эксперимента, прикрутили поиск.
Модель доступна одновременно как и в чате так и в API, куда добавили поддержку function calling и structured output для этой модели. Цену скинули в три раза - стоит новая модель $1.10/$4.40 за миллион токенов, что лишь немногим дороже R1 с официального API (и дешевле многих неофициальных).
У новой модели есть три режима работы:
(1) быстрый режим low compute,
(2) обходящий o1-mini режим medium (всё равно на 24% быстрее),
(3) и опережающий o1 на большинстве бенчей, более медленный режим high compute.
Есть и нюансы - как и оригинальная o1-mini, o3-mini не поддерживает мультимодальный ввод, а одну из требующих агентности задач модель полностью провалила - использовала bash вместо питона не смотря на все попытки уговорить её это не делать.
Модель очень интересная, классно что бесплатным пользователям наконец-то дали reasoning модель. Ощущается как OpenAI задвигались, когда появилась конкуренция - и цены сбрасывают, и доступ бесплатным юзерам дают, и поиск прикручивают.
@ai_newz
Лимиты бесплатным пользователям пока непонятные, Pro подписчикам дают безлимит, Team и Pro - 150 сообщений в день. Также к o3-mini, в качестве эксперимента, прикрутили поиск.
Модель доступна одновременно как и в чате так и в API, куда добавили поддержку function calling и structured output для этой модели. Цену скинули в три раза - стоит новая модель $1.10/$4.40 за миллион токенов, что лишь немногим дороже R1 с официального API (и дешевле многих неофициальных).
У новой модели есть три режима работы:
(1) быстрый режим low compute,
(2) обходящий o1-mini режим medium (всё равно на 24% быстрее),
(3) и опережающий o1 на большинстве бенчей, более медленный режим high compute.
Есть и нюансы - как и оригинальная o1-mini, o3-mini не поддерживает мультимодальный ввод, а одну из требующих агентности задач модель полностью провалила - использовала bash вместо питона не смотря на все попытки уговорить её это не делать.
Модель очень интересная, классно что бесплатным пользователям наконец-то дали reasoning модель. Ощущается как OpenAI задвигались, когда появилась конкуренция - и цены сбрасывают, и доступ бесплатным юзерам дают, и поиск прикручивают.
@ai_newz
👍1
🦢 Goose: автономный AI-агент для автоматизации инженерных задач
Goose — это локально работающий AI-ассистент для программистов, способный автономно выполнять сложные задачи: от отладки до деплоя. Инструмент гибко настраивается, поддерживает кастомные LLM-модели и интеграцию с внешними API.
### 🔹 Возможности:
- Локальный запуск — все вычисления выполняются на вашей машине
- Автономность — сам справляется с разными инженерными задачами
- Расширяемость — можно подключать свои модели и API
- Открытый исходный код — настраивайте и модифицируйте под себя
### ⚡ Применение:
✔️ Генерация и исправление кода
✔️ Автоматизация тестирования и отладки
✔️ Создание API-запросов и документации
✔️ Интеграция с CI/CD
📌 Репозиторий: [github.com/block/goose](https://github.com/block/goose)
Goose — это локально работающий AI-ассистент для программистов, способный автономно выполнять сложные задачи: от отладки до деплоя. Инструмент гибко настраивается, поддерживает кастомные LLM-модели и интеграцию с внешними API.
### 🔹 Возможности:
- Локальный запуск — все вычисления выполняются на вашей машине
- Автономность — сам справляется с разными инженерными задачами
- Расширяемость — можно подключать свои модели и API
- Открытый исходный код — настраивайте и модифицируйте под себя
### ⚡ Применение:
✔️ Генерация и исправление кода
✔️ Автоматизация тестирования и отладки
✔️ Создание API-запросов и документации
✔️ Интеграция с CI/CD
📌 Репозиторий: [github.com/block/goose](https://github.com/block/goose)
GitHub
GitHub - block/goose: an open source, extensible AI agent that goes beyond code suggestions - install, execute, edit, and test…
an open source, extensible AI agent that goes beyond code suggestions - install, execute, edit, and test with any LLM - block/goose
👍1
Forwarded from JCenterS - Компьютерная графика (CG, VFX, 3D) (Beast Blend)
This media is not supported in your browser
VIEW IN TELEGRAM
Называется он - Browser Use.
Новый ИИ-агент в открытом доступе на GitHub:
▸ Автоматизирует задачи по одному запросу, как у OpenAI
▸ Работает с ChatGPT-4o, Claude 3, Deepseek-R1
▸ Бесплатно + доступ в РФ.
На первый взгляд выглядит круто, но больше подойдёт для программистов/кодеров, для обычных людей может поставить напоминания в календарик не более.
А прогуглить мы и сами можем
Качайте тут, если заинтересовало пишите че как
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🔥Хочешь узнать, как нейросети могут улучшить твою жизнь?🔥
Меня зовут Влад, я — AI-маркетолог. В своём Telegram-канале простым языком рассказываю о нейросетях и о том, как правильно писать промпты. В моём канале ты найдёшь:
✔️Реальные кейсы внедрения AI: Узнай, как компании используют нейросети для автоматизации задач и повышения эффективности.
✔️Обзоры топовых AI-инструментов: Открой для себя лучшие решения для анализа данных, прогнозирования спроса и улучшения клиентского сервиса.
✔️Пошаговые гайды по интеграции нейросетей: Получай подробные инструкции по внедрению AI в твои бизнес-процессы.
Почему это важно?
Внедрение нейросетей помогает:
Автоматизировать рутинные задачи: Сократи время на выполнение однообразных операций и сосредоточься на стратегических задачах.
Улучшить обслуживание клиентов: Используй AI для персонализации предложений и быстрого реагирования на запросы клиентов.
Принимать обоснованные решения: Анализируй большие объемы данных и получай инсайты для развития бизнеса.
Не упусти шанс быть впереди конкурентов!
Подписывайся прямо сейчас!
🔗 Лямин о нейросетях
Меня зовут Влад, я — AI-маркетолог. В своём Telegram-канале простым языком рассказываю о нейросетях и о том, как правильно писать промпты. В моём канале ты найдёшь:
✔️Реальные кейсы внедрения AI: Узнай, как компании используют нейросети для автоматизации задач и повышения эффективности.
✔️Обзоры топовых AI-инструментов: Открой для себя лучшие решения для анализа данных, прогнозирования спроса и улучшения клиентского сервиса.
✔️Пошаговые гайды по интеграции нейросетей: Получай подробные инструкции по внедрению AI в твои бизнес-процессы.
Почему это важно?
Внедрение нейросетей помогает:
Автоматизировать рутинные задачи: Сократи время на выполнение однообразных операций и сосредоточься на стратегических задачах.
Улучшить обслуживание клиентов: Используй AI для персонализации предложений и быстрого реагирования на запросы клиентов.
Принимать обоснованные решения: Анализируй большие объемы данных и получай инсайты для развития бизнеса.
Не упусти шанс быть впереди конкурентов!
Подписывайся прямо сейчас!
🔗 Лямин о нейросетях
Telegram
Влад Лямин о нейросетях
Владелец агентства по ИИ и автоматизации
📄Помогаю стать на ступень выше с помощью ии
Агентство: http://lvmn.ru/
По любым вопросам: @lyaminvl
📄Помогаю стать на ступень выше с помощью ии
Агентство: http://lvmn.ru/
По любым вопросам: @lyaminvl
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Lumina-Video-f24R960
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатная бета-версия Zonos обещает мгновенное клонирование, безупречное качество и полный контроль над звучанием.
— Для этого нужно загрузить фрагмент длиной от 10 до 30 секунд или записать аудио.
— Есть настройка скорости речи, высоты тона, частоты и эмоций.
— Может скопировать голос с записи на русском языке, но пока не озвучивает русскоязычный текст.
• Попробовать
• Github
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.
Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.
Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.
GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).
GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.
Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.
GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).
GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
👍3👎1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Magic 1-For-1: Generating One Minute Video Clips within One Minute
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
Новый опенсорсный китайский видеогенератор
Чего-то там наоптимизировали чтобы минутный ролик создавался за одну минуту в несколько шагов
Ест 30GB VRAM для 540x960
Веса будут на днях
Код
#text2video #image2video
❤1