Forwarded from Machinelearning
LLaMA-Omni - модель, построенная на основе Llama-3.1-8B-Instruct, которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.
LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.
Для установки и локального запуска понадобятся GPU => 20GB и набор :
⚠️ Примечания:
omni_speech/infer/examples
, а затем обратитесь скрипту omni_speech/infer/run.sh
.# Clone repository
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni
# Install packages
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .
# Install fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation
# Install flash-attention
pip install flash-attn --no-build-isolation
http://localhost:8000/
@ai_machinelearning_big_data
#AI #ML #LLM #Llama #SpeechToSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
С её помощью можно легко добавить улыбку, изменить положение глаз и рта.
Фотографии теперь всегда будут получаться идеальными.
📌 Попробовать
#nn #soft
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍6❤2
cookbook.pdf
642.4 KB
✍️ Гайд по тензорам
Книга- гайд, в которое есть все, что нужно знать о тензорах.
Тензор — это контейнер, в котором могут храниться данные в N измерениях. Часто и ошибочно используемые взаимозаменяемо с матрицей (которая, в частности, является двумерным тензором), тензоры представляют собой обобщения матриц на N -мерное пространство.
🔗 Ссылка
@bigdatai
Книга- гайд, в которое есть все, что нужно знать о тензорах.
Тензор — это контейнер, в котором могут храниться данные в N измерениях. Часто и ошибочно используемые взаимозаменяемо с матрицей (которая, в частности, является двумерным тензором), тензоры представляют собой обобщения матриц на N -мерное пространство.
🔗 Ссылка
@bigdatai
🔥9❤3👍2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Как генерировать сложные 3D-сцены с высокой реалистичностью?
LT3SD разлагает 3D-сцены на латентные древовидные объекты, а диффузия на латентных деревьях обеспечивает бесшовный бесконечный синтез 3D-сцен!
https://quan-meng.github.io/projects/lt3sd/
@bigdatai
LT3SD разлагает 3D-сцены на латентные древовидные объекты, а диффузия на латентных деревьях обеспечивает бесшовный бесконечный синтез 3D-сцен!
https://quan-meng.github.io/projects/lt3sd/
@bigdatai
👍4🔥3❤2
⚡️ Vchitect-2.0, модель генерации видео 2B, поддерживающая разрешение до 720x480 и генерацию 5-20 секунд.
👉 Сайт: https://vchitect.intern-ai.org.cn
👉 Код: https://github.com/Vchitect/Vchitect-2.0
👉 Демо: https://huggingface.co/spaces/Vchitect/Vchitect-2.0
@bigdatai
👉 Сайт: https://vchitect.intern-ai.org.cn
👉 Код: https://github.com/Vchitect/Vchitect-2.0
👉 Демо: https://huggingface.co/spaces/Vchitect/Vchitect-2.0
@bigdatai
👍4❤2
Forwarded from Machinelearning
💊 Machine Learning: Медицинский дайджест за период 7.09 - 14.09 2024 года
🟩 BrainWave: модель для анализа сигналов головного мозга.
BrainWave – модель, обученная на 40 000 часах инвазивных (iEEG) и неинвазивных (EEG) записей мозговой активности 16 тыс пациентов. Это первая фундаментальная модель для анализа сигналов мозга, объединяющая данные из разных источников.
🟩 DS-ViT: Visual Transformer для ранней диагностики болезни Альцгеймера.
Dual-Stream Vision Transformer (DS-ViT) -метод, который объединяет сегментацию и классификацию для улучшения точности обучения моделей, обрабатывающих снимки МРТ головного мозга.
Он использует FastSurfer в качестве обучающей модели для детальной сегментации для обучаемой ViT-модели ADAPT (модель диагностики болезни Альцгеймера).
🟩 EyeCLIP: фундаментальная VLM для офтальмологических изображений.
EyeCLIP, визуально-языковая фундаментальная модель (VLM), обученная на более чем 2,77 миллионах мультимодальных офтальмологических изображений и 11 180 текстовых описаний от 128 000 пациентов.
Модель может выполнять задачи классификации заболеваний глаз, прогнозирование системных заболеваний, поиск информации по изображению и тексту и ответы на вопросы, связанные с изображениями патологии глаз.
🟩 Возможности SAM для сегментации опухолей мозга.
В исследовании изучается эффективность SAM для сегментации опухолей головного мозга на основе набора данных BraTS2019, который содержит изображения четырех модальностей (T1, T1ce, T2, FLAIR). Авторы оценивают эффективность SAM с использованием двух типов маркирования - точки и рамки и анализируют влияние количества маркирования на точность сегментации.
Результаты показывают, что SAM с маркировкой в виде рамок превосходит по точности маркировку в виде точек. Увеличение количества точек улучшает производительность до определенного предела, после которого точность начинает снижаться. Комбинирование точечных и рамочных маркировок позволяет добиться наилучших результатов.
🟩 MEDIC: Оценка языковых моделей для клинического применения.
MEDIC использует пять ключевых измерений клинической компетентности: медицинское мышление, этические аспекты и предвзятость, понимание данных и языка, контекстное обучение и клиническая безопасность.
Оценка проводится тестированием на задачах: ответы на закрытые и открытые вопросы, суммирование медицинских текстов и создание клинических заметок. Для оценки безопасности моделей используется набор данных Med-Safety, содержащий 900 сценариев с потенциально опасными медицинскими запросами.
Приложения с использованием языковых моделей.
🟪 KARGEN: генерация отчетов рентгенографии грудной клетки с использованием графа знаний и больших языковых моделей.
KARGEN - фреймворк, объединяющий большие языковые модели с графом знаний, специально разработанным для анализа рентгенограмм грудной клетки.
Архитектура KARGEN: энкодеры визуальных признаков (Swin Transformer), модуль слияния (element-wise fusion + modality-wise fusion) и генератор отчетов.
Энкодер визуальных признаков извлекает признаки из рентгеновского изображения, граф знаний, построенный на основе взаимосвязей между 14 заболеваниями из набора данных Chexpert, используется для извлечения признаков, связанных с этими заболеваниями.
🟪 i-MedRAG: итеративный поиск информации для ответов на сложные медицинские вопросы.
i-MedRAG - архитектура RAG, предназначенная для ответов на сложные медицинские вопросы, требующие многоэтапных рассуждений. В отличие от традиционных RAG-систем, i-MedRAG использует итеративный подход к поиску информации.
Методики и техники
🟦 Автоматическая сегментация клеток с использованием UNet в DeepChem.
В статье описан эксперимент создания интеграции модели UNet, архитектуры, известной своей эффективностью в задачах сегментации изображений, с python библиотекой DeepChem, предназначенной для машинного и глубокого обучения в биологии и химии, для задач автоматической сегментации клеток на различных наборах данных микроскопических изображений.
🔥Полный дайджест
@ai_machinelearning_big_data
#news #ai #ml #medtech
🟩 BrainWave: модель для анализа сигналов головного мозга.
BrainWave – модель, обученная на 40 000 часах инвазивных (iEEG) и неинвазивных (EEG) записей мозговой активности 16 тыс пациентов. Это первая фундаментальная модель для анализа сигналов мозга, объединяющая данные из разных источников.
🟩 DS-ViT: Visual Transformer для ранней диагностики болезни Альцгеймера.
Dual-Stream Vision Transformer (DS-ViT) -метод, который объединяет сегментацию и классификацию для улучшения точности обучения моделей, обрабатывающих снимки МРТ головного мозга.
Он использует FastSurfer в качестве обучающей модели для детальной сегментации для обучаемой ViT-модели ADAPT (модель диагностики болезни Альцгеймера).
🟩 EyeCLIP: фундаментальная VLM для офтальмологических изображений.
EyeCLIP, визуально-языковая фундаментальная модель (VLM), обученная на более чем 2,77 миллионах мультимодальных офтальмологических изображений и 11 180 текстовых описаний от 128 000 пациентов.
Модель может выполнять задачи классификации заболеваний глаз, прогнозирование системных заболеваний, поиск информации по изображению и тексту и ответы на вопросы, связанные с изображениями патологии глаз.
🟩 Возможности SAM для сегментации опухолей мозга.
В исследовании изучается эффективность SAM для сегментации опухолей головного мозга на основе набора данных BraTS2019, который содержит изображения четырех модальностей (T1, T1ce, T2, FLAIR). Авторы оценивают эффективность SAM с использованием двух типов маркирования - точки и рамки и анализируют влияние количества маркирования на точность сегментации.
Результаты показывают, что SAM с маркировкой в виде рамок превосходит по точности маркировку в виде точек. Увеличение количества точек улучшает производительность до определенного предела, после которого точность начинает снижаться. Комбинирование точечных и рамочных маркировок позволяет добиться наилучших результатов.
🟩 MEDIC: Оценка языковых моделей для клинического применения.
MEDIC использует пять ключевых измерений клинической компетентности: медицинское мышление, этические аспекты и предвзятость, понимание данных и языка, контекстное обучение и клиническая безопасность.
Оценка проводится тестированием на задачах: ответы на закрытые и открытые вопросы, суммирование медицинских текстов и создание клинических заметок. Для оценки безопасности моделей используется набор данных Med-Safety, содержащий 900 сценариев с потенциально опасными медицинскими запросами.
Приложения с использованием языковых моделей.
🟪 KARGEN: генерация отчетов рентгенографии грудной клетки с использованием графа знаний и больших языковых моделей.
KARGEN - фреймворк, объединяющий большие языковые модели с графом знаний, специально разработанным для анализа рентгенограмм грудной клетки.
Архитектура KARGEN: энкодеры визуальных признаков (Swin Transformer), модуль слияния (element-wise fusion + modality-wise fusion) и генератор отчетов.
Энкодер визуальных признаков извлекает признаки из рентгеновского изображения, граф знаний, построенный на основе взаимосвязей между 14 заболеваниями из набора данных Chexpert, используется для извлечения признаков, связанных с этими заболеваниями.
🟪 i-MedRAG: итеративный поиск информации для ответов на сложные медицинские вопросы.
i-MedRAG - архитектура RAG, предназначенная для ответов на сложные медицинские вопросы, требующие многоэтапных рассуждений. В отличие от традиционных RAG-систем, i-MedRAG использует итеративный подход к поиску информации.
Методики и техники
🟦 Автоматическая сегментация клеток с использованием UNet в DeepChem.
В статье описан эксперимент создания интеграции модели UNet, архитектуры, известной своей эффективностью в задачах сегментации изображений, с python библиотекой DeepChem, предназначенной для машинного и глубокого обучения в биологии и химии, для задач автоматической сегментации клеток на различных наборах данных микроскопических изображений.
🔥Полный дайджест
@ai_machinelearning_big_data
#news #ai #ml #medtech
👍3❤1
Узнайте, как обучать и развертывать модели с помощью контейнеров Deep Learning Containers.
https://huggingface.co/docs/google-cloud/index
@bigdatai
https://huggingface.co/docs/google-cloud/index
@bigdatai
👍3❤1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Красивая визуализация нейронной сети, обученной на MNIST
Нейрона была написана с нуля на языке Odin и визуализирована с помощью Raylib.
https://github.com/bones-ai/odin-mnist-nn
@bigdatai
Нейрона была написана с нуля на языке Odin и визуализирована с помощью Raylib.
https://github.com/bones-ai/odin-mnist-nn
@bigdatai
❤11❤🔥5🥰1
ИТМО назвал лидеров развития Open Source в России
Лидером среди российских компаний стал Яндекс, за ним — Сбер и Т-банк. Компании оценивались по количеству опенсорс-проектов, их популярности, качеству репозиториев и активности контрибьюторов.
Среди ключевых решений лидера рейтинга: CatBoost (библиотека для градиентного бустинга), YTsaurus (платформа для работы с большими данными) и YDB (распределённая SQL-база данных).
Ключевые выводы исследования:
— Большинство компаний ориентируются не только на внутренний, но и на международный рынок;
— GitHub остаётся стандартом, но растёт интерес к альтернативам (Gitee, GitVerse);
— Open source объединяет специалистов со всего мира;
— Конкуренция постепенно уступает место совместному развитию отрасли;
— Для развития опенсорс-проектов необходима финансовая поддержка;
— Несмотря на рост ИИ, роль человека в опенсорсе остаётся ключевой.
Лидером среди российских компаний стал Яндекс, за ним — Сбер и Т-банк. Компании оценивались по количеству опенсорс-проектов, их популярности, качеству репозиториев и активности контрибьюторов.
Среди ключевых решений лидера рейтинга: CatBoost (библиотека для градиентного бустинга), YTsaurus (платформа для работы с большими данными) и YDB (распределённая SQL-база данных).
Ключевые выводы исследования:
— Большинство компаний ориентируются не только на внутренний, но и на международный рынок;
— GitHub остаётся стандартом, но растёт интерес к альтернативам (Gitee, GitVerse);
— Open source объединяет специалистов со всего мира;
— Конкуренция постепенно уступает место совместному развитию отрасли;
— Для развития опенсорс-проектов необходима финансовая поддержка;
— Несмотря на рост ИИ, роль человека в опенсорсе остаётся ключевой.
opensource.itmo.ru
ITMO Open Source
👍12👎2
Mistral выпустили улучшенную модель Small 22B - Многоязычную модель с контекстом 128K контекст
Промежуточная модель между Mistral NeMo 12B и Mistral Large 123B.
> Параметры 22B
> Поддерживает вызов функций
> Длина контекста 128k
> Доступны веса
🤗Веса: https://huggingface.co/mistralai/Mistral-Small-Instruct-2409
@bigdatai
Промежуточная модель между Mistral NeMo 12B и Mistral Large 123B.
> Параметры 22B
> Поддерживает вызов функций
> Длина контекста 128k
> Доступны веса
pip install --upgrade vllm
🤗Веса: https://huggingface.co/mistralai/Mistral-Small-Instruct-2409
@bigdatai
👍6❤1🔥1
NVIDIA’s New AI Is Really Good At Moving Rabbits!
https://www.youtube.com/watch?v=l4JCJEdbfzs
@bigdatai
https://www.youtube.com/watch?v=l4JCJEdbfzs
@bigdatai
YouTube
NVIDIA’s New AI: So Which One Is It?
❤️ Check out Lambda here and sign up for their GPU Cloud: https://lambdalabs.com/paper
📝 The paper "DiffUHaul: A Training-Free Method for Object Dragging in Images" is available here:
https://omriavrahami.com/diffuhaul/
📝 My paper on simulations that look…
📝 The paper "DiffUHaul: A Training-Free Method for Object Dragging in Images" is available here:
https://omriavrahami.com/diffuhaul/
📝 My paper on simulations that look…
👍4❤3
https://www.youtube.com/watch?v=TQQMjGH7TM0
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Как загрузить ОГРОМНЫЙ Датасет в Pandas #python
⚡️https://www.tgoop.com/ai_machinelearning_big_data - наш телеграм для всех, кто учит и любит машинное обучении
⚡️https://www.tgoop.com/pythonl - вся база по python
⚡️ https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy - крутая папка для разработчиков
В этом видеоуроке мы научимся загружать…
⚡️https://www.tgoop.com/pythonl - вся база по python
⚡️ https://www.tgoop.com/addlist/2Ls-snqEeytkMDgy - крутая папка для разработчиков
В этом видеоуроке мы научимся загружать…
🔥7❤1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Phidias
Генеративная модель для создания 3D-контента из текста, изображения и 3D-условий с помощью диффузии с добавлением ссылок
https://huggingface.co/papers/2409.11406
@bigdatai
Генеративная модель для создания 3D-контента из текста, изображения и 3D-условий с помощью диффузии с добавлением ссылок
https://huggingface.co/papers/2409.11406
@bigdatai
👍3❤1🔥1
Проект, который создан на основе GTA-V для оценки позы и движения человека.
В нем представлены сцены с участием нескольких человек с аннотациями.
В дополнение к цветным последовательностям изображений также предоставляются трехмерные ограничивающие рамки и обрезанные облака точек (созданные на основе синтетических изображений).
страница проекта: https://caizhongang.com/projects/GTA-Human/gta-human_v2.html
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👏2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчики Kling AI представили новый инструмент Motion Brush, который позволяет анимировать отдельные объекты в видео. Пользователи могут загружать изображения и задавать пути движения, просто нарисовав траекторию ✍️. Это дает возможность точно управлять движением до шести элементов одновременно, что делает видео более динамичными и увлекательными 🎥.
Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.
Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀
Пробуем здесь.
#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt
@bigdatai
Среди ключевых функций Kling AI 1.5 — поддержка 1080p HD для улучшенного качества изображений и возможность комбинирования статических и анимированных объектов. Это позволяет авторам фиксировать определенные области, предотвращая нежелательные движения в финальном видео 🌟.
Kling Motion Brush — это революция в создании видео, открывающая новые горизонты для контент-креаторов! 🚀
Пробуем здесь.
#KlingAI #MotionBrush #AI #VideoCreation #Animation #DigitalArt
@bigdatai
🔥10❤1👍1👎1🤔1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
✅ 3DTopia-XL GenAI Foundation✅
"3DTopia-XL", мощный трансформер создания 3D-PBR-объектов.
- Проект: https://3dtopia.github.io/3DTopia-XL/
- Код: https://github.com/3DTopia/3DTopia-XL
- Демо : https://huggingface.co/spaces/FrozenBurning/3DTopia-
@bigdatai
"3DTopia-XL", мощный трансформер создания 3D-PBR-объектов.
- Проект: https://3dtopia.github.io/3DTopia-XL/
- Код: https://github.com/3DTopia/3DTopia-XL
- Демо : https://huggingface.co/spaces/FrozenBurning/3DTopia-
@bigdatai
👍3❤1
Forwarded from Анализ данных (Data analysis)
Большинство моделей от Mistral теперь доступны бесплатно по API 😱
Что за аттракцион невиданной щедрости? Вероятно, ваши запросы будут использованы для обучения новых моделей (хотя это не точно).
VPN не требуется, карта не нужна. Пользуйтесь!
@data_analysis_ml
Что за аттракцион невиданной щедрости? Вероятно, ваши запросы будут использованы для обучения новых моделей (хотя это не точно).
VPN не требуется, карта не нужна. Пользуйтесь!
@data_analysis_ml
👍7