Telegram Web
Forwarded from Machinelearning
💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.

Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.

🐱Github: https://github.com/PKU-YuanGroup/Video-LLaVA

🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

📕Paper: https://arxiv.org/abs/2311.10122v1

Dataset: https://paperswithcode.com/dataset/mmbench

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from AI для Всех (Artemii)
Anthropic представляет Claude 2.1: Новый уровень AI для бизнеса

🔥 Claude 2.1 значительно улучшает работу с большими данными и уменьшает количество галлюцинаций.

Компания Anthropic (пока что главные конкуренты OpenAI) разработала обновлённую модель AI, Claude 2.1, которая превосходит предыдущие версии своей эффективностью и точностью.

Claude 2.1 вдвое увеличивает объём обрабатываемой информации – до 200 тысяч токенов. Также модель стала на 50% точнее, уменьшив количество ошибок и неверных утверждений. А еще так же как и ChatGPT, у Claude теперь есть доступ к внешним API (actions).

Эти улучшения делают Claude 2.1 отличным выбором для предприятий, стремящихся использовать AI для анализа больших объёмов данных и повышения эффективности своей работы.

Подробнее о модели
👍3
Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)
Больше обновление Космографа 🪐

Если вы вдруг не знаете, что такое Космограф — это самый быстрый веб-инструмент для визуализации больших графов, а теперь еще двумерных эмбеддингов (расчитанных, например, UMAP или другим алгоритмом уменьшения размерности).

Итак, в новой версии Космографа теперь можно открывать CSV-файлы с двумерными эмбеддингами ваших данных и делиться вашими визуализациями с другими, отправив им ссылку. Вот, например, 7 тысяч статей The New York Times опубликованных между январем и апрелем 2022.

Помимо этого Космограф теперь показывает подписи ко всем точкам динамически по мере приближения и отдаления. А еще мы добавили отдельную вкладку с гистограммами для каждой числовой колонки из файла данных, и улучшили поиск, что бы можно было искать точки по разным полям из данных и выделять их.

Если вы разрабочик, то модули из Космографа теперь можно интегрировать в ваше веб-приложение (у нас есть пакеты для React и обычного JavaScript).

Но и это еще не все! Мы обновили сайт и добавили туда подробную документацию с примерами, чтобы вам было еще проще использовать Космограф и интегрировать его в ваши собственные инструменты.

https://cosmograph.app — пользуйтесь! Будем рады вашим вопросам и комментариям.

@dataviznews
🔥3
Forwarded from тоже моушн
This media is not supported in your browser
VIEW IN TELEGRAM
обработка в стейбле потихоньку подбирается к реалтайму. а виной всему LCM, который лихо ускоряет генерацию без потери качества

Олег Чомп записал мега полезный гайд о том как используя ComfyUI и Touchdesigner обрабатывать любой видео сигнал на лету

я и сам сейчас в работе активно использую патч Олега для комфи, так что рекомендую!

оригинальный пост
гайд на ютуб
lora LCM
патч для Тача

@тоже_моушн
2
Forwarded from Kali Novskaya (Tatiana Shavrina)
🌸Альтернативы OpenAI API🌸
#nlp #про_nlp

Если после последних событий вы задумываетесь о том, не начать ли подбирать запасной вариант помимо chatGPT, GPT-4 от OpenAI, то вот несколько альтернатив.

🟣Anthropic
Пожалуй, основной конкурент сейчас (ключевая команда — выходцы из OpenAI).
Есть 2 версии модели — Claude Instant и Claude 2, преподносятся как аналоги GPT-3.5 и GPT-4 (одна модель быстрее, вторая — умнее)
Языков заявлено много, основные метрики и безопасность — сравнимо высокие.
Из очевидных плюсов:
цены дешевле OpenAI
— для большого траффика есть инференс через Amazon Bedrock
Из недостатков — все промты придется мигрировать специальным образом, с упором на XML (так устроено структурирование запросов к моделям).
Документация

🟣Cohere
Ассистенты Coral и Command на основе RAG (retrieval-augmented generation) — хорошо решает задачи, связанные с извлечением информации, поиском, чтением документов, меньше галлюцинирует. Есть готовые интенты для продолжения чата, написания текстов, суммаризации, поиска.
Есть готовое API, много документации и готовых юз-кейсов.
Но в основном только английский язык.
Документация

🟣Inflection AI
Основной продукт стартапа — ассистент Pi. Заявленные функции почти такие же как у OpenAI, есть все стандартные ожидаемые функции — персональная поддержка, планирование календаря, креативные задачи, помощь в написании текстов со сложной структурой.
Для получения API надо становиться в waitlist

🟣Stability AI
Stability AI (Stable Diffusion) в основном продает API моделей генерации изображений и апскейлинга, но совсем недавно к семейству их разработок добавились и языковые модели Stable LM.
Самая последняя разработка — модель Stable Beluga с 70 млрд параметров — пока по API напрямую недоступна, ждем ее добавления в линейку доступных по API.

🟣Perplexity AI
Готовый API-сервис для оптимизированного быстрого инференса открытых LLM: Mistral 7B, Llama2 13B, Code Llama 34B, Llama2 70B, replit-code-v1.5-3b
Своей модели среди доступных нет.

🟣Amazon Bedrock (AWS)
Дешево и сердито — подключиться к моделям, уже доступным на AWS. Готовый инференс большого числа моделей, в том числе вышеупомянутых стартапов — а также Llama 2 (Meta), Jurassic (A21 labs), Titan (Amazon research).
Документация
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
Forwarded from эйай ньюз
Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели».

Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез

Часть 1: LLMs
00:00:00 Intro: Large Language Model (LLM) talk
00:00:20 LLM Inference
00:04:17 LLM Training
00:08:58 LLM dreams
00:11:22 How do they work?
00:14:14 Finetuning into an Assistant
00:17:52 Summary so far
00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard

Часть 2: Future of LLMs
00:25:43 LLM Scaling Laws
00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E)
00:33:32 Multimodality (Vision, Audio)
00:35:00 Thinking, System 1/2
00:38:02 Self-improvement, LLM AlphaGo
00:40:45 LLM Customization, GPTs store
00:42:15 LLM OS

Часть 3: LLM Security
00:45:43 LLM Security Intro
00:46:14 Jailbreaks
00:51:30 Prompt Injection
00:56:23 Data poisoning
00:58:37 LLM Security conclusions

Слайды

@ai_newz
👍9
Forwarded from эйай ньюз
🔥Intel зарелизил самую мощную 7B LLM

Модели на сотни миллиардов параметров - это, конечно, хорошо. Но прикольно и на ноутбуке погонять небольшие модели.

Intel в последнее время сдал позиции, и многие их считают андердогом. Так вот теперь Intel включился в большую игру! Они затюнили Mistral 7B (писал о ней тут) и получили СОТУ среди моделей на 7 млрд параметров. И выложили все это добро под лицензией Apache 2.

Для дообучения использовали:
- Supervised Finetuning на SlimOrca, эо примерно 500k ответов, сгенеренных GPT-4;
- DPO (Direct Preference Optimization) тюн на датасете пар, сгенерированных LLaMA-13B vs ChatGPT Gens. Обучали модель препочитать ответы ChatGPT ответам Лламы.

Модель
Код
SlimOrca Dataset
DPO Dataset

@ai_newz
6
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Building and Evaluating Advanced RAG Applications

Вышел новый бесплатный курс от deeplearning.ai по сложным техникам RAG (Retrieval Augmented Generation).🦾

В этом курсе преподаются продвинутые техники работы с LLM, которые помогут вам генерировать хорошие и релевантные ответы и.

deeplearning.ai/short-courses/building-evaluating-advanced-rag/

@ai_machinelearning_big_data
2👍1
Forwarded from AI для Всех (Artemii)
Llamafile от Mozilla: портативный ИИ на флешке

Теперь почти любое устройство можно превратить в оффлайн персонального собеседника за секунды, благодаря Llamafile от Mozilla!

📌 Что такое Llamafile?
Llamafile - это опенсорс продукт от Mozilla, который позволяет распространять и запускать большие языковые модели (LLMs) с помощью одного файла. Это означает, что вы можете "поселить" умную Ламу на флешку или ноутбук.

💡 Особенности Llamafile:
1. Совместимость с различными архитектурами и ОС: Llamafile работает на множестве CPU архитектур и на всех основных операционных системах, включая macOS, Windows и Linux

2. Интеграция с разными моделями ИИ: можно загрузить любые модели, например Mistral-7B-Instruct или WizardCoder-Python-13B, и использовать их в качестве серверных или локальных бинарных файлов

3. Поддержка GPU: На Apple Silicon и Linux, Llamafile поддерживает GPU, что позволяет ускорить обработку данных и улучшить производительность.

4. Нормальная лицензия: Проект llamafile лицензирован под Apache 2.0

🌍 Выводы:
Llamafile от Mozilla открывает новые горизонты для ИИ-разработчиков и пользователей. С Llamafile, ваше устройство становится не просто гаджетом, а интеллектуальным помощником, который всегда с вами (даже в самолете)!

Блог-пост
GitHub

(Напоминаю что сегодня ровно год с выхода ChatGPT, а у нас уже есть версия для флешки 🤔)
Please open Telegram to view this post
VIEW IN TELEGRAM
8💯2
https://huggingface.co/stabilityai/sd-turbo

SD-Turbo is a fast generative text-to-image model that can synthesize photorealistic images from a text prompt in a single network evaluation. We release SD-Turbo as a research artifact, and to study small, distilled text-to-image models. For increased quality and prompt understanding, we recommend SDXL-Turbo.
SDXL-Turbo is a fast generative text-to-image model that can synthesize photorealistic images from a text prompt in a single network evaluation. A real-time demo is available here: http://clipdrop.co/stable-diffusion-turbo

https://huggingface.co/stabilityai/sdxl-turbo

https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf
Thrilled to announce Pearl, Production-ready Reinforcement Learning (RL) AI Agent Library, now open-source! Crafted by the Applied RL team, AI at Meta.

GitHub: https://lnkd.in/g7mCQRHm
Paper: https://lnkd.in/gPhWeJh4
Website: pearlagent.github.io
🔥2
Еще фреймворк для тулов и вызовов функций. Заявляют, что быстрее и эффективнее чем через ReAct.
Сейчас работает с OpenAI, подвязка LLama в роадмэпе.

LLMCompiler: An LLM Compiler for Parallel Function Calling
https://arxiv.org/abs/2312.04511
https://github.com/squeezeailab/llmcompiler
Forwarded from AI для Всех (Artemii)
Китайские ученые запустили полностью автономных виртуальных персон-агентов

This is beyond insanity🙃

берём LLM, прикручиваем к ней api calls - actions, крафтим персону - system prompt, картинку - сначала текстуры, потом уже экшенами управляем маникеном. Получаем полностью автономного ИИ способного управлять виртуальным миром.

Есть шанс что первых 100% автономных роботов мы увидим сразу после Рождества. Как раз у людей появится возможность время дома провести.

Проект
2025/07/12 05:19:22
Back to Top
HTML Embed Code: