Telegram Web
🔥 FireFlow — метод быстрого инверсного преобразования и редактирования изображений, основанный на модели FLUX-dev!

🌟 FireFlow использует численный решатель второго порядка для работы с моделями ReFlow, что позволяет достичь высокой точности при сравнительно низких вычислительных затратах. Этот подход применяется для задач, таких как реконструкция изображений и их семантическое редактирование.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 OmniAudio: Мультимодальная модель для обработки аудио и текста.

OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.

OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.

Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.

OmniAudio обучалась в три этапа:

🟠Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription. Для различения задач транскрибирования и завершения был введен специальный токен <|transcribe|>.

🟠Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель.

🟠На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт».

Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.

В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.

Модель опубликовала в 4 вариантах квантования в формате GGUF:

🟢OmniAudio-2.6B-model-fp16 - 5.24 Gb
🟢OmniAudio-2.6B-model-q8_0 - 2.78 Gb
🟢OmniAudio-2.6B-model-q4_K_M - 1.71 Gb
🟢OmniAudio-2.6B-model-q4_0 - 2.78 Gb

⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.

⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #OmniAudio #NexaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Невероятный прогресс за год )

@machinelearning_ru
🔍 Hands-On Large Language Models — репозиторий, который содержит учебные материалы и примеры из одноименной книги для работы с LLM!

🌟 Этот проект ориентирован на разработчиков и исследователей, желающих освоить методы работы с моделями, такими как GPT, BERT и другие. В репозитории собраны ресурсы, примеры кода и пошаговые инструкции по использованию LLM в реальных приложениях, включая задачи обработки естественного языка, генерацию текста, перевод и другие.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Gateway — это легковесное и быстрое решение для маршрутизации запросов к более чем 250 языковым, визуальным и аудиомоделям!

🌟 Оно предлагает единый API для интеграции моделей менее чем за 2 минуты, поддерживает балансировку нагрузки, условную маршрутизацию, автоматическое восстановление и встроенные механизмы защиты (guardrails). Система оптимизирована для масштабирования AI-приложений, обеспечивает надёжность и безопасность, подходя как для индивидуальных разработчиков, так и для корпоративного использования.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ebook2audiobook — это инструмент, который преобразует текст из электронных книг в аудиокниги! Он поддерживает клонирование вашего голоса и более 1100 языков!

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 "your-source-to-prompt.html" — инструмент, который позволяет превращать исходный код проектов в текстовые запросы для LLM, используя только ваш локальный компьютер!

🌟 Все операции выполняются в браузере, без необходимости установки дополнительных зависимостей. Это решение ориентировано на безопасность (код не покидает устройство) и удобство работы с любыми папками и репозиториями. Оно поддерживает создание предустановок для повторяющихся задач и может минимизировать код для экономии места в контексте модели.

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 scikit-opt — библиотека на Python для решения задач оптимизации с использованием методов роя и эволюционных алгоритмов!

🌟 Она включает такие алгоритмы, как генетический алгоритм (GA), оптимизация роя частиц (PSO), имитация отжига (SA), алгоритм муравьиной колонии (ACO), дифференциальная эволюция и другие.

🔐Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🖥 Magnetron

Этот проект был создан, с целью изучения понимания внутренней работы PyTorch и других популярных фреймворков глубокого обучения.

Главная цель проекта - создание с нуля минималистичного, но при этом мощного фреймворк глубокого обучения, который можно использовать как для исследований, так и для продакшена.

Фреймворк написан на C и Python и спроектирован так, чтобы его было легко понять и модифицировать.

Знаменитая цитат Ричарда Фейнмена - То, что я не могу создать, я не понимаю.

Создание собственного языка программирования, игрового движка и конечно фреймворка машинного обучения позволит понять, как работает современное программное обеспечение, до мельчайших деталей.

◾️GitHub
◾️Demo
◾️Docs

@ai_machinelearning_big_data

#c99 #python #framework
Please open Telegram to view this post
VIEW IN TELEGRAM
💡Alibaba выпустили V-makeup - инструмент генрации макияжа  с открытым исходным кодом

Позволяет делать качественный перенос макияжа с помощью диффузионных моделей

https://github.com/Snowfallingplum/SHMT
👩‍💻 Mlxtend (machine learning extensions) — это библиотека Python, предоставляющая полезные инструменты для анализа данных и задач машинного обучения!

🌟 Она включает модули для обработки данных, визуализации, построения моделей, кросс-валидации и других аспектов, упрощая выполнение повседневных задач в сфере Data Science.

🌟 Библиотека предназначена для расширения возможностей популярных инструментов, таких как scikit-learn, pandas и NumPy. Она содержит функции для построения ансамблей моделей, работы с наборами данных, выполнения статистического анализа и визуализации результатов.

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🖥 nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌GitHub
📌Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Monolith — это высокопроизводительная платформа машинного обучения, разработанная для крупномасштабного обучения рекомендательных систем и обработки данных. Именно этот фреймворк отвечает за систему рекомендаций в TikTok!

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ CPU vs GPU vs TPU Memory Subsystem Architecture

@machinelearning_ru
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS — это модель 82M TTS, которая звучит очень реалистично и работает быстро!

📌 HF: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

@machinelearning_ru
🔥 Rig — это библиотека на языке Rust для создания масштабируемых и модульных приложений, использующих LLM!

🌟 Она упрощает интеграцию LLM в приложения с минимальной настройкой и поддерживает различные векторные хранилища данных, такие как MongoDB и Neo4j. Rig предоставляет удобные абстракции для работы с моделями и запросами, позволяя разработчикам быстро создавать мощные ИИ-приложения с использованием минимальных усилий.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/10 14:06:09
Back to Top
HTML Embed Code: