This media is not supported in your browser
VIEW IN TELEGRAM
🎥🔥 VideoPrism от GoogleDeepMind — универсальный видеоэнкодер нового поколения
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
$ git clone https://github.com/google-deepmind/videoprism.git
$ cd videoprism
$ pip install .
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
NVIDIA NeMo Retriever занял первое место на huggingface ViDoRe: The Visual Document Retrieval Benchmark!
“llama-nemoretriever-colembed-3b-v1” стал топ-моделью, дообученной для сопоставления текстовых и визуальных запросов с документами.
• 🔎 Извлечение данных из PDF в 15× быстрее аналогов
• 📊 Точность на 50% выше
• 💾 Эффективность хранения на 35× лучше
Идеально подходит для мультимодальных RAG-систем с текстом, графиками, таблицами и инфографикой.
Модель выдаёт ColBERT-style мультивекторные представления запросов и документов.
https://huggingface.co/spaces/vidore/vidore-leaderboard
“llama-nemoretriever-colembed-3b-v1” стал топ-моделью, дообученной для сопоставления текстовых и визуальных запросов с документами.
• 🔎 Извлечение данных из PDF в 15× быстрее аналогов
• 📊 Точность на 50% выше
• 💾 Эффективность хранения на 35× лучше
Идеально подходит для мультимодальных RAG-систем с текстом, графиками, таблицами и инфографикой.
Модель выдаёт ColBERT-style мультивекторные представления запросов и документов.
https://huggingface.co/spaces/vidore/vidore-leaderboard
Forwarded from Machinelearning
FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины.
Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации.
В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями .
FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания:
ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров .
Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000.
На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям.
Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов.
Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление.
Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения.
FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео.
@ai_machinelearning_big_data
#AI #ML #Tokenizer #Flextok #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSWE 🤖 — полностью открытый SOTA-агент для кодинга на базе Qwen3-32B
- Обучен исключительно с помощью RL через фреймворк rLLM
- Результат 59% на SWEBench-Verified с тест-тайм масштабированием (42.2% Pass@1) — лидер среди моделей с открытыми весами
- В открытом доступе: модель, код rLLM, датасет R2EGym и рецепты обучения для полной воспроизводимости
🤗 Model: https://huggingface.co/agentica-org/DeepSWE-Preview
📄 DeepSWE blog: https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art[%E2%80%A6]-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33
📄 rLLM blog:
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
💻 Github (rLLM): https://github.com/agentica-project/rllm
- Обучен исключительно с помощью RL через фреймворк rLLM
- Результат 59% на SWEBench-Verified с тест-тайм масштабированием (42.2% Pass@1) — лидер среди моделей с открытыми весами
- В открытом доступе: модель, код rLLM, датасет R2EGym и рецепты обучения для полной воспроизводимости
🤗 Model: https://huggingface.co/agentica-org/DeepSWE-Preview
📄 DeepSWE blog: https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art[%E2%80%A6]-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33
📄 rLLM blog:
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
💻 Github (rLLM): https://github.com/agentica-project/rllm
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Вышел подкаст от издания N + 1 с инженером рекомендательных систем Яндекса Николаем Савушкиным. В нём обсудили, можно ли применять рекомендательные системы на длинной дистанции и смогут ли они построить дерево вариантов для будущей жизни и карьеры пользователя.
Некоторые компании уже пытались сделать из рекомендательной системы агента, который поможет человеку оптимизировать свою жизнь как в краткосрочном, так и в долгосрочном периоде. Но рекомендации всё ещё живут в парадигме дискриминативных систем и лишь угадывают реакцию пользователя на действие вместо того, чтобы сгенерировать осмысленную цепочку действий.
@machinelearning_ru
Некоторые компании уже пытались сделать из рекомендательной системы агента, который поможет человеку оптимизировать свою жизнь как в краткосрочном, так и в долгосрочном периоде. Но рекомендации всё ещё живут в парадигме дискриминативных систем и лишь угадывают реакцию пользователя на действие вместо того, чтобы сгенерировать осмысленную цепочку действий.
@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
Wondera AI ии, который генерирует полноценные треки за минуту и заметно обходит конкурентов по качеству.
Вы можете создавать, редактировать и выпускать музыку бесплатно, а нейронка подскажет, как лучше составить промт для трека.
Пользуемся тут.
Вы можете создавать, редактировать и выпускать музыку бесплатно, а нейронка подскажет, как лучше составить промт для трека.
Пользуемся тут.
This media is not supported in your browser
VIEW IN TELEGRAM
Из окон офисов VK — самые красивые закаты. А в самих офисах обитают самые любимые коллеги!
Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK.
Откликайтесь, если откликается!
Ребята не только делают сервисы VK быстрее и удобнее, но и любят делиться знаниями. Совсем скоро они проведут открытый Java AI-митап и расскажут о том, как мы масштабируем процессы, а ещё поделятся фишками, которые стоят за сервисами VK.
Откликайтесь, если откликается!
🔐 FATE — промышленный фреймворк для федеративного обучения. Этот проект под эгидой Linux Foundation позволяет компаниям совместно обучать ML-модели, не объединяя исходные данные. В основе — комбинация гомоморфного шифрования и MPC-протоколов, обеспечивающие безопасность на уровне промышленных стандартов.
Фреймворк обладает большим разнообразием сценариев: от классических алгоритмов вроде логистической регрессии до трансферного обучения и работы с LLM. Модульная архитектура делает решение гибким для разных инфраструктур.
🤖 GitHub
@machinelearning_ru
Фреймворк обладает большим разнообразием сценариев: от классических алгоритмов вроде логистической регрессии до трансферного обучения и работы с LLM. Модульная архитектура делает решение гибким для разных инфраструктур.
🤖 GitHub
@machinelearning_ru
⚡️ Почему лучшие разработчики всегда на шаг впереди?
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: www.tgoop.com/ai_machinelearning_big_data
Python: www.tgoop.com/pro_python_code
Linux: www.tgoop.com/linuxacademiya
Devops: www.tgoop.com/DevOPSitsec
Базы данных: www.tgoop.com/sqlhub
Мл собес www.tgoop.com/machinelearning_interview
C++ www.tgoop.com/cpluspluc
Docker: www.tgoop.com/DevopsDocker
Хакинг: www.tgoop.com/linuxkalii
МЛ: www.tgoop.com/machinelearning_ru
Data Science: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/java_library
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Физика: www.tgoop.com/fizmat
SQL: www.tgoop.com/databases_tg
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno
🖥 Chatgpt для кода в тг: @Chatgpturbobot -
📕Ит-книги: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Потому что они знают, где брать настоящие инсайд!
Оставь “программирование в вакууме” в прошлом, выбирай свой стек — подпишись и погружайся в поток идей, лайфхаков и знаний, которые не найдёшь в открытом доступе.
ИИ: www.tgoop.com/ai_machinelearning_big_data
Python: www.tgoop.com/pro_python_code
Linux: www.tgoop.com/linuxacademiya
Devops: www.tgoop.com/DevOPSitsec
Базы данных: www.tgoop.com/sqlhub
Мл собес www.tgoop.com/machinelearning_interview
C++ www.tgoop.com/cpluspluc
Docker: www.tgoop.com/DevopsDocker
Хакинг: www.tgoop.com/linuxkalii
МЛ: www.tgoop.com/machinelearning_ru
Data Science: www.tgoop.com/data_analysis_ml
Javascript: www.tgoop.com/javascriptv
C#: www.tgoop.com/csharp_ci
Java: www.tgoop.com/java_library
Python собеседования: www.tgoop.com/python_job_interview
Мобильная разработка: www.tgoop.com/mobdevelop
Golang: www.tgoop.com/Golang_google
React: www.tgoop.com/react_tg
Rust: www.tgoop.com/rust_code
ИИ: www.tgoop.com/vistehno
PHP: www.tgoop.com/phpshka
Android: www.tgoop.com/android_its
Frontend: www.tgoop.com/front
Big Data: www.tgoop.com/bigdatai
МАТЕМАТИКА: www.tgoop.com/data_math
Kubernets: www.tgoop.com/kubernetc
Разработка игр: https://www.tgoop.com/gamedev
Физика: www.tgoop.com/fizmat
SQL: www.tgoop.com/databases_tg
Папка Go разработчика: www.tgoop.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tgoop.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tgoop.com/addlist/mzMMG3RPZhY2M2Iy
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
😆ИТ-Мемы: www.tgoop.com/memes_prog
🇬🇧Английский: www.tgoop.com/english_forprogrammers
🧠ИИ: www.tgoop.com/vistehno
📕Ит-книги: https://www.tgoop.com/addlist/BkskQciUW_FhNjEy
💼ИТ-вакансии www.tgoop.com/addlist/_zyy_jQ_QUsyM2Vi
Подпишись, чтобы всегда знать, куда двигаться дальше!
Please open Telegram to view this post
VIEW IN TELEGRAM
👾 GREMLLM — теперь у ваших багов есть сознание
GREMLLM — это необычный Python-класс, в котором все методы и свойства создаются динамически с помощью LLM. Вы описываете, *что за объект вы хотите*, и дальше GREMLLM сам решает, что должно происходить при вызове методов или обращении к полям.
📦 Установка:
🔧 Пример:
🧩 Возможности:
– Динамическое поведение: всё определяется "на лету" с помощью LLM
– Поддержка OpenAI, Claude, Gemini, и локальных моделей
– Wet Mode: можно строить цепочки вызовов (методы возвращают объекты)
– Verbose Mode: выводит, какой код был сгенерирован
– Умная обработка ошибок и настройка через наследование
⚠️ Это экспериментальный инструмент. Не для продакшена. Но очень интересен для изучения LLM-интеграций в Python-код.
🔗 Репозиторий: https://github.com/ur-whitelab/gremllm
GREMLLM — это необычный Python-класс, в котором все методы и свойства создаются динамически с помощью LLM. Вы описываете, *что за объект вы хотите*, и дальше GREMLLM сам решает, что должно происходить при вызове методов или обращении к полям.
📦 Установка:
pip install gremllm
🔧 Пример:
from gremllm import Gremllm
counter = Gremllm('counter')
counter.value = 5
counter.increment()
print(counter.value) # → 6?
print(counter.to_roman_numerals()) # → VI?
🧩 Возможности:
– Динамическое поведение: всё определяется "на лету" с помощью LLM
– Поддержка OpenAI, Claude, Gemini, и локальных моделей
– Wet Mode: можно строить цепочки вызовов (методы возвращают объекты)
– Verbose Mode: выводит, какой код был сгенерирован
– Умная обработка ошибок и настройка через наследование
⚠️ Это экспериментальный инструмент. Не для продакшена. Но очень интересен для изучения LLM-интеграций в Python-код.
🔗 Репозиторий: https://github.com/ur-whitelab/gremllm
🧠 ChatGPT поставил диагноз, который не могли найти врачи за 10 лет
На Reddit набирает популярность история пользователя, который десятилетие мучился от странных симптомов. Он проходил МРТ, КТ, сдавал десятки анализов — врачи проверяли его даже на рассеянный склероз и болезнь Лайма. Но точного диагноза так и не было.
В отчаянии он решил попробовать ChatGPT: загрузил свои медицинские данные и попросил ИИ проанализировать всё.
🔍 Ответ оказался неожиданным: ChatGPT предположил редкую мутацию гена MTHFR, нарушающую усвоение витамина B12. Врач подтвердил диагноз — и лечение оказалось простым: нужно было лишь поднять уровень B12 в организме.
> «Прошло несколько месяцев, и мои симптомы почти исчезли», — пишет он.
💬 Самое интересное — он оказался не один. В комментариях десятки пользователей рассказали похожие истории: ИИ помогал находить редкие болезни, давал новые идеи, которые врачи упускали.
⚠️ Конечно, ChatGPT — не замена врачу. Но как второй взгляд, особенно когда традиционная медицина бессильна — он может реально помочь.
📌 Источник
🤔 А ты бы доверил свой диагноз ИИ?
На Reddit набирает популярность история пользователя, который десятилетие мучился от странных симптомов. Он проходил МРТ, КТ, сдавал десятки анализов — врачи проверяли его даже на рассеянный склероз и болезнь Лайма. Но точного диагноза так и не было.
В отчаянии он решил попробовать ChatGPT: загрузил свои медицинские данные и попросил ИИ проанализировать всё.
🔍 Ответ оказался неожиданным: ChatGPT предположил редкую мутацию гена MTHFR, нарушающую усвоение витамина B12. Врач подтвердил диагноз — и лечение оказалось простым: нужно было лишь поднять уровень B12 в организме.
> «Прошло несколько месяцев, и мои симптомы почти исчезли», — пишет он.
💬 Самое интересное — он оказался не один. В комментариях десятки пользователей рассказали похожие истории: ИИ помогал находить редкие болезни, давал новые идеи, которые врачи упускали.
⚠️ Конечно, ChatGPT — не замена врачу. Но как второй взгляд, особенно когда традиционная медицина бессильна — он может реально помочь.
📌 Источник
🤔 А ты бы доверил свой диагноз ИИ?
🚀Kafka must-have инструмент для современных проектов MLOps!
Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.
🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.
🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/
👉 Запишись сейчас, количество мест ограничено!
Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.
🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.
🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/
👉 Запишись сейчас, количество мест ограничено!
🩺 II-Medical-32B-Preview - новый мощный медецинский LLm
🏆 90% на MedQA | 71.5% средний результат
(для сравнения: студенты-медики ~60%)
💻 Открытый, код и датасеты
🚀 Работает на одном GPU
+ Внутри 3 датасета:
II-Medical-SFT, II-Medical-RL, ChatDoctor-RL
https://huggingface.co/Intelligent-Internet/II-Medical-32B-Preview
🏆 90% на MedQA | 71.5% средний результат
(для сравнения: студенты-медики ~60%)
💻 Открытый, код и датасеты
🚀 Работает на одном GPU
+ Внутри 3 датасета:
II-Medical-SFT, II-Medical-RL, ChatDoctor-RL
https://huggingface.co/Intelligent-Internet/II-Medical-32B-Preview