Generative Ai 798 - Telegram Web

Forwarded from Machinelearning

💥 Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Простая, но надежная модель зрительного языка LVLM - Video-LLaVA, который обучается на смешанном наборе данных изображений и видео, взаимно усиливая друг друга. LLM выполнять визуальные рассуждения одновременно о изображениях и видео.

Video-LLaVA превосходит Video-ChatGPT, MSRVTT, MSVD, TGIF и ActivityNet на 5,8%, 9,9%, 18,6% и 10,1% на соответственно. Многочисленныйе эксперименты показывают, что Video-LLaVA превосходит модели, разработанные специально для изображений или видео.

🐱

Github: https://github.com/PKU-YuanGroup/Video-LLaVA

🤗Demo: https://huggingface.co/spaces/LanguageBind/Video-LLaVA

📕

Paper: https://arxiv.org/abs/2311.10122v1

⏩

Dataset: https://paperswithcode.com/dataset/mmbench

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

766 views11:23

Forwarded from эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

687 views06:41

Forwarded from AI для Всех (Artemii)

Anthropic представляет Claude 2.1: Новый уровень AI для бизнеса

🔥 Claude 2.1 значительно улучшает работу с большими данными и уменьшает количество галлюцинаций.

Компания Anthropic (пока что главные конкуренты OpenAI) разработала обновлённую модель AI, Claude 2.1, которая превосходит предыдущие версии своей эффективностью и точностью.

Claude 2.1 вдвое увеличивает объём обрабатываемой информации – до 200 тысяч токенов. Также модель стала на 50% точнее, уменьшив количество ошибок и неверных утверждений. А еще так же как и ChatGPT, у Claude теперь есть доступ к внешним API (actions).

Эти улучшения делают Claude 2.1 отличным выбором для предприятий, стремящихся использовать AI для анализа больших объёмов данных и повышения эффективности своей работы.

Подробнее о модели

👍3

785 views06:56

Forwarded from 🗞 Виз Ньюз (Nikita Rokotyan)

Больше обновление Космографа 🪐

Если вы вдруг не знаете, что такое Космограф — это самый быстрый веб-инструмент для визуализации больших графов, а теперь еще двумерных эмбеддингов (расчитанных, например, UMAP или другим алгоритмом уменьшения размерности).

Итак, в новой версии Космографа теперь можно открывать CSV-файлы с двумерными эмбеддингами ваших данных и делиться вашими визуализациями с другими, отправив им ссылку. Вот, например, 7 тысяч статей The New York Times опубликованных между январем и апрелем 2022.

Помимо этого Космограф теперь показывает подписи ко всем точкам динамически по мере приближения и отдаления. А еще мы добавили отдельную вкладку с гистограммами для каждой числовой колонки из файла данных, и улучшили поиск, что бы можно было искать точки по разным полям из данных и выделять их.

Если вы разрабочик, то модули из Космографа теперь можно интегрировать в ваше веб-приложение (у нас есть пакеты для React и обычного JavaScript).

Но и это еще не все! Мы обновили сайт и добавили туда подробную документацию с примерами, чтобы вам было еще проще использовать Космограф и интегрировать его в ваши собственные инструменты.

https://cosmograph.app — пользуйтесь! Будем рады вашим вопросам и комментариям.

@dataviznews

🔥3

992 views15:03

Forwarded from тоже моушн

This media is not supported in your browser

VIEW IN TELEGRAM

обработка в стейбле потихоньку подбирается к реалтайму. а виной всему LCM, который лихо ускоряет генерацию без потери качества

Олег Чомп записал мега полезный гайд о том как используя ComfyUI и Touchdesigner обрабатывать любой видео сигнал на лету

я и сам сейчас в работе активно использую патч Олега для комфи, так что рекомендую!

оригинальный пост
гайд на ютуб
lora LCM
патч для Тача

@тоже_моушн

❤2

901 views14:03

Forwarded from Kali Novskaya (Tatiana Shavrina)

🌸Альтернативы OpenAI API🌸
#nlp #про_nlp

Если после последних событий вы задумываетесь о том, не начать ли подбирать запасной вариант помимо chatGPT, GPT-4 от OpenAI, то вот несколько альтернатив.

🟣

Anthropic
Пожалуй, основной конкурент сейчас (ключевая команда — выходцы из OpenAI).
Есть 2 версии модели — Claude Instant и Claude 2, преподносятся как аналоги GPT-3.5 и GPT-4 (одна модель быстрее, вторая — умнее)
Языков заявлено много, основные метрики и безопасность — сравнимо высокие.
Из очевидных плюсов:
— цены дешевле OpenAI
— для большого траффика есть инференс через Amazon Bedrock
Из недостатков — все промты придется мигрировать специальным образом, с упором на XML (так устроено структурирование запросов к моделям).
Документация

🟣

Cohere
Ассистенты Coral и Command на основе RAG (retrieval-augmented generation) — хорошо решает задачи, связанные с извлечением информации, поиском, чтением документов, меньше галлюцинирует. Есть готовые интенты для продолжения чата, написания текстов, суммаризации, поиска.
Есть готовое API, много документации и готовых юз-кейсов.
Но в основном только английский язык.
Документация

🟣

Inflection AI
Основной продукт стартапа — ассистент Pi. Заявленные функции почти такие же как у OpenAI, есть все стандартные ожидаемые функции — персональная поддержка, планирование календаря, креативные задачи, помощь в написании текстов со сложной структурой.
Для получения API надо становиться в waitlist

🟣

Stability AI
Stability AI (Stable Diffusion) в основном продает API моделей генерации изображений и апскейлинга, но совсем недавно к семейству их разработок добавились и языковые модели Stable LM.
Самая последняя разработка — модель Stable Beluga с 70 млрд параметров — пока по API напрямую недоступна, ждем ее добавления в линейку доступных по API.

🟣

Perplexity AI
Готовый API-сервис для оптимизированного быстрого инференса открытых LLM: Mistral 7B, Llama2 13B, Code Llama 34B, Llama2 70B, replit-code-v1.5-3b
Своей модели среди доступных нет.

🟣

Amazon Bedrock (AWS)
Дешево и сердито — подключиться к моделям, уже доступным на AWS. Готовый инференс большого числа моделей, в том числе вышеупомянутых стартапов — а также Llama 2 (Meta), Jurassic (A21 labs), Titan (Amazon research).
Документация

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1

881 views15:52

Forwarded from эйай ньюз

Там Карпатый опять отжигает. Он выпустил часовую лекцию «Интро в большие языковые модели».

Образовательный контент от Карпатого всегда топовый. Нужно смотреть! #ликбез

Часть 1: LLMs
00:00:00 Intro: Large Language Model (LLM) talk
00:00:20 LLM Inference
00:04:17 LLM Training
00:08:58 LLM dreams
00:11:22 How do they work?
00:14:14 Finetuning into an Assistant
00:17:52 Summary so far
00:21:05 Appendix: Comparisons, Labeling docs, RLHF, Synthetic data, Leaderboard

Часть 2: Future of LLMs
00:25:43 LLM Scaling Laws
00:27:43 Tool Use (Browser, Calculator, Interpreter, DALL-E)
00:33:32 Multimodality (Vision, Audio)
00:35:00 Thinking, System 1/2
00:38:02 Self-improvement, LLM AlphaGo
00:40:45 LLM Customization, GPTs store
00:42:15 LLM OS

Часть 3: LLM Security
00:45:43 LLM Security Intro
00:46:14 Jailbreaks
00:51:30 Prompt Injection
00:56:23 Data poisoning
00:58:37 LLM Security conclusions

Слайды

@ai_newz

[1hr Talk] Intro to Large Language Models

This is a 1 hour general-audience introduction to Large Language Models: the core technical component behind systems like ChatGPT, Claude, and Bard. What they are, where they are headed, comparisons and analogies to present-day operating systems, and some…

👍9

1.06K views19:20

Forwarded from эйай ньюз

🔥Intel зарелизил самую мощную 7B LLM

Модели на сотни миллиардов параметров - это, конечно, хорошо. Но прикольно и на ноутбуке погонять небольшие модели.

Intel в последнее время сдал позиции, и многие их считают андердогом. Так вот теперь Intel включился в большую игру! Они затюнили Mistral 7B (писал о ней тут) и получили СОТУ среди моделей на 7 млрд параметров. И выложили все это добро под лицензией Apache 2.

Для дообучения использовали:
- Supervised Finetuning на SlimOrca, эо примерно 500k ответов, сгенеренных GPT-4;
- DPO (Direct Preference Optimization) тюн на датасете пар, сгенерированных LLaMA-13B vs ChatGPT Gens. Обучали модель препочитать ответы ChatGPT ответам Лламы.

Модель
Код
SlimOrca Dataset
DPO Dataset

@ai_newz

❤6

1.22K views10:38

Forwarded from Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔥Building and Evaluating Advanced RAG Applications

Вышел новый бесплатный курс от deeplearning.ai по сложным техникам RAG (Retrieval Augmented Generation).🦾

В этом курсе преподаются продвинутые техники работы с LLM, которые помогут вам генерировать хорошие и релевантные ответы и.

deeplearning.ai/short-courses/building-evaluating-advanced-rag/

@ai_machinelearning_big_data

❤2👍1

1.05K views10:43

https://huggingface.co/openchat/openchat_3.5

1.33K views10:44

Forwarded from AI для Всех (Artemii)

Llamafile от Mozilla: портативный ИИ на флешке

Теперь почти любое устройство можно превратить в оффлайн персонального собеседника за секунды, благодаря Llamafile от Mozilla!

📌 Что такое Llamafile?
Llamafile - это опенсорс продукт от Mozilla, который позволяет распространять и запускать большие языковые модели (LLMs) с помощью одного файла. Это означает, что вы можете "поселить" умную Ламу на флешку или ноутбук.

💡 Особенности Llamafile:
1. Совместимость с различными архитектурами и ОС: Llamafile работает на множестве CPU архитектур и на всех основных операционных системах, включая macOS, Windows и Linux

2. Интеграция с разными моделями ИИ: можно загрузить любые модели, например Mistral-7B-Instruct или WizardCoder-Python-13B, и использовать их в качестве серверных или локальных бинарных файлов

3. Поддержка GPU: На Apple Silicon и Linux, Llamafile поддерживает GPU, что позволяет ускорить обработку данных и улучшить производительность.

4. Нормальная лицензия: Проект llamafile лицензирован под Apache 2.0

🌍 Выводы:
Llamafile от Mozilla открывает новые горизонты для ИИ-разработчиков и пользователей. С Llamafile, ваше устройство становится не просто гаджетом, а интеллектуальным помощником, который всегда с вами (даже в самолете)!

Блог-пост
GitHub

(Напоминаю что сегодня ровно год с выхода ChatGPT, а у нас уже есть версия для флешки

🤔

)

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8💯2

1.25K views08:56

https://huggingface.co/stabilityai/sd-turbo

SD-Turbo is a fast generative text-to-image model that can synthesize photorealistic images from a text prompt in a single network evaluation. We release SD-Turbo as a research artifact, and to study small, distilled text-to-image models. For increased quality and prompt understanding, we recommend SDXL-Turbo.

1.28K views20:53

SDXL-Turbo is a fast generative text-to-image model that can synthesize photorealistic images from a text prompt in a single network evaluation. A real-time demo is available here: http://clipdrop.co/stable-diffusion-turbo

https://huggingface.co/stabilityai/sdxl-turbo

https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf

1.48K viewsedited 20:55

Forwarded from gonzo-обзоры ML статей

Gemini announced!

Looks like the most capable GPT competitor with better multimodal capabilities.

Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Google DeepMind

Gemini 2.5 is our most intelligent AI model, capable of reasoning through its thoughts before responding, resulting in enhanced performance and improved accuracy.

1.21K views22:52

Thrilled to announce Pearl, Production-ready Reinforcement Learning (RL) AI Agent Library, now open-source! Crafted by the Applied RL team, AI at Meta.

GitHub: https://lnkd.in/g7mCQRHm
Paper: https://lnkd.in/gPhWeJh4
Website: pearlagent.github.io

This link will take you to a page that’s not on LinkedIn

🔥2

1.37K viewsedited 11:49

A platform for Reasoning systems (Reinforcement Learning, Contextual Bandits, etc.)

https://ai.meta.com/tools/reagent/
https://github.com/facebookresearch/ReAgent

ReAgent is a platform for Large-Scale Reasoning systems (Reinforcement Learning, Contextual Bandits).

1.24K views11:53

Forwarded from Агенты ИИ | AGI_and_RL

Еще фреймворк для тулов и вызовов функций. Заявляют, что быстрее и эффективнее чем через ReAct.
Сейчас работает с OpenAI, подвязка LLama в роадмэпе.

LLMCompiler: An LLM Compiler for Parallel Function Calling
https://arxiv.org/abs/2312.04511
https://github.com/squeezeailab/llmcompiler

903 views17:21

Forwarded from AI для Всех (Artemii)

Digital Life Project: Autonomous 3D Characters with Social Intelligence

Homepage: https://digital-life-project.com/

Abstract: In this work, we present Digital Life Project, a framework utilizing language as the universal medium to build autonomous 3D characters, who are capable of engaging in social interactions and expressing…

Китайские ученые запустили полностью автономных виртуальных персон-агентов

This is beyond insanity🙃

берём LLM, прикручиваем к ней api calls - actions, крафтим персону - system prompt, картинку - сначала текстуры, потом уже экшенами управляем маникеном. Получаем полностью автономного ИИ способного управлять виртуальным миром.

Есть шанс что первых 100% автономных роботов мы увидим сразу после Рождества. Как раз у людей появится возможность время дома провести.

Проект

1.03K views17:26

2025/07/12 05:19:22
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>