Telegram Web
🔥 Мультимодальность, открытый код и гиперперсонализация вошли в тройку ИИ-трендов следующего года.

Эксперты отрасли рассказали, что в ближайшем будущем модели будут двигаться в сторону ориентирования сразу на несколько форматов данных — текст, изображения, аудио и видео. Опенсорс продолжит развиваться — разработчики будут использовать открытый код и выкладывать новые модели в Open Source.

По словам специалиста Яндекса, уровень развития опенсорса уже сейчас достаточно высок, особенно это заметно в области LLM с открытым кодом. IT-компании во всем мире применяют собственные знания вместе с опенсорс-решениями, подстраивая их под потребности бизнеса и пользователей.

Кроме того, в списке трендов — автономные системы, гибридные подходы ИИ и интеграция ИИ в повседневную жизнь.

📌 Источник

@machinelearning_ru
👍3🔥1
🔥 FireFlow — метод быстрого инверсного преобразования и редактирования изображений, основанный на модели FLUX-dev!

🌟 FireFlow использует численный решатель второго порядка для работы с моделями ReFlow, что позволяет достичь высокой точности при сравнительно низких вычислительных затратах. Этот подход применяется для задач, таких как реконструкция изображений и их семантическое редактирование.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2
Forwarded from Machinelearning
🌟 OmniAudio: Мультимодальная модель для обработки аудио и текста.

OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.

OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.

Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.

OmniAudio обучалась в три этапа:

🟠Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription. Для различения задач транскрибирования и завершения был введен специальный токен <|transcribe|>.

🟠Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель.

🟠На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт».

Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.

В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.

Модель опубликовала в 4 вариантах квантования в формате GGUF:

🟢OmniAudio-2.6B-model-fp16 - 5.24 Gb
🟢OmniAudio-2.6B-model-q8_0 - 2.78 Gb
🟢OmniAudio-2.6B-model-q4_K_M - 1.71 Gb
🟢OmniAudio-2.6B-model-q4_0 - 2.78 Gb

⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.

⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #OmniAudio #NexaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
🔍 Hands-On Large Language Models — репозиторий, который содержит учебные материалы и примеры из одноименной книги для работы с LLM!

🌟 Этот проект ориентирован на разработчиков и исследователей, желающих освоить методы работы с моделями, такими как GPT, BERT и другие. В репозитории собраны ресурсы, примеры кода и пошаговые инструкции по использованию LLM в реальных приложениях, включая задачи обработки естественного языка, генерацию текста, перевод и другие.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥43
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Gateway — это легковесное и быстрое решение для маршрутизации запросов к более чем 250 языковым, визуальным и аудиомоделям!

🌟 Оно предлагает единый API для интеграции моделей менее чем за 2 минуты, поддерживает балансировку нагрузки, условную маршрутизацию, автоматическое восстановление и встроенные механизмы защиты (guardrails). Система оптимизирована для масштабирования AI-приложений, обеспечивает надёжность и безопасность, подходя как для индивидуальных разработчиков, так и для корпоративного использования.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥31👏1
Media is too big
VIEW IN TELEGRAM
⚡️ Введение в тензорные сети

📌 Видео
📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5
📌 Colab
👍43🔥2
Это мы
😁25👍32🔥2😱2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 ebook2audiobook — это инструмент, который преобразует текст из электронных книг в аудиокниги! Он поддерживает клонирование вашего голоса и более 1100 языков!

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
7🥰2🤯2👎1
🔥 "your-source-to-prompt.html" — инструмент, который позволяет превращать исходный код проектов в текстовые запросы для LLM, используя только ваш локальный компьютер!

🌟 Все операции выполняются в браузере, без необходимости установки дополнительных зависимостей. Это решение ориентировано на безопасность (код не покидает устройство) и удобство работы с любыми папками и репозиториями. Оно поддерживает создание предустановок для повторяющихся задач и может минимизировать код для экономии места в контексте модели.

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2👏2🥰1
🔥 scikit-opt — библиотека на Python для решения задач оптимизации с использованием методов роя и эволюционных алгоритмов!

🌟 Она включает такие алгоритмы, как генетический алгоритм (GA), оптимизация роя частиц (PSO), имитация отжига (SA), алгоритм муравьиной колонии (ACO), дифференциальная эволюция и другие.

🔐Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥1
Forwarded from Machinelearning
🖥 Magnetron

Этот проект был создан, с целью изучения понимания внутренней работы PyTorch и других популярных фреймворков глубокого обучения.

Главная цель проекта - создание с нуля минималистичного, но при этом мощного фреймворк глубокого обучения, который можно использовать как для исследований, так и для продакшена.

Фреймворк написан на C и Python и спроектирован так, чтобы его было легко понять и модифицировать.

Знаменитая цитат Ричарда Фейнмена - То, что я не могу создать, я не понимаю.

Создание собственного языка программирования, игрового движка и конечно фреймворка машинного обучения позволит понять, как работает современное программное обеспечение, до мельчайших деталей.

◾️GitHub
◾️Demo
◾️Docs

@ai_machinelearning_big_data

#c99 #python #framework
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥41
💡Alibaba выпустили V-makeup - инструмент генрации макияжа  с открытым исходным кодом

Позволяет делать качественный перенос макияжа с помощью диффузионных моделей

https://github.com/Snowfallingplum/SHMT
👍31🔥1
👩‍💻 Mlxtend (machine learning extensions) — это библиотека Python, предоставляющая полезные инструменты для анализа данных и задач машинного обучения!

🌟 Она включает модули для обработки данных, визуализации, построения моделей, кросс-валидации и других аспектов, упрощая выполнение повседневных задач в сфере Data Science.

🌟 Библиотека предназначена для расширения возможностей популярных инструментов, таких как scikit-learn, pandas и NumPy. Она содержит функции для построения ансамблей моделей, работы с наборами данных, выполнения статистического анализа и визуализации результатов.

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🔥3👏1
Forwarded from Machinelearning
🖥 nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌GitHub
📌Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥31
🔥 Monolith — это высокопроизводительная платформа машинного обучения, разработанная для крупномасштабного обучения рекомендательных систем и обработки данных. Именно этот фреймворк отвечает за систему рекомендаций в TikTok!

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥3
⚡️ CPU vs GPU vs TPU Memory Subsystem Architecture

@machinelearning_ru
👍10🔥2🥰2👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro TTS — это модель 82M TTS, которая звучит очень реалистично и работает быстро!

📌 HF: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

@machinelearning_ru
👍72🔥2👎1🥰1
2025/07/12 23:25:14
Back to Top
HTML Embed Code: