Машинное обучение RU 2312

Машинное обучение RU

🔥 Мультимодальность, открытый код и гиперперсонализация вошли в тройку ИИ-трендов следующего года.

Эксперты отрасли рассказали, что в ближайшем будущем модели будут двигаться в сторону ориентирования сразу на несколько форматов данных — текст, изображения, аудио и видео. Опенсорс продолжит развиваться — разработчики будут использовать открытый код и выкладывать новые модели в Open Source.

По словам специалиста Яндекса, уровень развития опенсорса уже сейчас достаточно высок, особенно это заметно в области LLM с открытым кодом. IT-компании во всем мире применяют собственные знания вместе с опенсорс-решениями, подстраивая их под потребности бизнеса и пользователей.

Кроме того, в списке трендов — автономные системы, гибридные подходы ИИ и интеграция ИИ в повседневную жизнь.

📌 Источник

@machinelearning_ru

👍3🔥1

2.69K views11:30

Машинное обучение RU

🔥

FireFlow — метод быстрого инверсного преобразования и редактирования изображений, основанный на модели FLUX-dev!

🌟 FireFlow использует численный решатель второго порядка для работы с моделями ReFlow, что позволяет достичь высокой точности при сравнительно низких вычислительных затратах. Этот подход применяется для задач, таких как реконструкция изображений и их семантическое редактирование.

🔐 Лицензия: Apache-2.0

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2

2.59K views14:00

Машинное обучение RU

Forwarded from Machinelearning

🌟 OmniAudio: Мультимодальная модель для обработки аудио и текста.

OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.

OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.

Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.

OmniAudio обучалась в три этапа:

🟠Предварительное обучение - alignment аудио и текста с применением датасета MLS English 10k transcription. Для различения задач транскрибирования и завершения был введен специальный токен <|transcribe|>.

🟠Этап SFT улучшил возможности ведения диалога за счет использования синтетических данных, полученных на основе контекстно релевантных ответов к тому же датасету. Для из синтеза создания применялась собственная модель.

🟠На финальном этапе, DPO, было повышено качество за счет исправления неточностей при сохранении семантического соответствия с помощью GPT-4o в качестве эталона. Для стабильности качества при обработке как аудио, так и текстовых данных, ответы Gemma2 использовались как «золотой стандарт».

Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.

В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.

Модель опубликовала в 4 вариантах квантования в формате GGUF:

🟢

OmniAudio-2.6B-model-fp16 - 5.24 Gb

🟢

OmniAudio-2.6B-model-q8_0 - 2.78 Gb

🟢

OmniAudio-2.6B-model-q4_K_M - 1.71 Gb

🟢

OmniAudio-2.6B-model-q4_0 - 2.78 Gb

⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.

⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии q4_K_M требуется 1.30GB RAM.

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Модель

🟡

Demo

🟡

Сообщество в Discord

@ai_machinelearning_big_data

#AI #ML #OmniAudio #NexaAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

2.49K views10:06

Машинное обучение RU

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Невероятный прогресс за год )

@machinelearning_ru

😁20❤2👎2🤬2🔥1😢1

2.67K views11:11

Машинное обучение RU

🔍

Hands-On Large Language Models — репозиторий, который содержит учебные материалы и примеры из одноименной книги для работы с LLM!

🌟 Этот проект ориентирован на разработчиков и исследователей, желающих освоить методы работы с моделями, такими как GPT, BERT и другие. В репозитории собраны ресурсы, примеры кода и пошаговые инструкции по использованию LLM в реальных приложениях, включая задачи обработки естественного языка, генерацию текста, перевод и другие.

🔐 Лицензия: Apache-2.0

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥4❤3

2.96K views18:20

Машинное обучение RU

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Gateway — это легковесное и быстрое решение для маршрутизации запросов к более чем 250 языковым, визуальным и аудиомоделям!

🌟 Оно предлагает единый API для интеграции моделей менее чем за 2 минуты, поддерживает балансировку нагрузки, условную маршрутизацию, автоматическое восстановление и встроенные механизмы защиты (guardrails). Система оптимизирована для масштабирования AI-приложений, обеспечивает надёжность и безопасность, подходя как для индивидуальных разработчиков, так и для корпоративного использования.

🔐 Лицензия: MIT

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3❤1👏1

3.28K views13:01

⚡️ Введение в тензорные сети

📌 Видео
📌 Урок 1 / Урок2 / Урок3 / Урок4 / Урок5
📌 Colab

👍4❤3🔥2

3.1K views15:28

Машинное обучение RU

Это мы

😁25👍3❤2🔥2😱2👎1

3.31K views10:03

Машинное обучение RU

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

ebook2audiobook — это инструмент, который преобразует текст из электронных книг в аудиокниги! Он поддерживает клонирование вашего голоса и более 1100 языков!

🔗 Ссылка: *клик*

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🥰2🤯2👎1

3.13K views09:40

Машинное обучение RU

🔥

"your-source-to-prompt.html" — инструмент, который позволяет превращать исходный код проектов в текстовые запросы для LLM, используя только ваш локальный компьютер!

🌟 Все операции выполняются в браузере, без необходимости установки дополнительных зависимостей. Это решение ориентировано на безопасность (код не покидает устройство) и удобство работы с любыми папками и репозиториями. Оно поддерживает создание предустановок для повторяющихся задач и может минимизировать код для экономии места в контексте модели.

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍2👏2🥰1

3.17K views13:01

Машинное обучение RU

🔥

scikit-opt — библиотека на Python для решения задач оптимизации с использованием методов роя и эволюционных алгоритмов!

🌟 Она включает такие алгоритмы, как генетический алгоритм (GA), оптимизация роя частиц (PSO), имитация отжига (SA), алгоритм муравьиной колонии (ACO), дифференциальная эволюция и другие.

🔐Лицензия: MIT

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤4🔥1

3.06K views14:01

Машинное обучение RU

Forwarded from Machinelearning

🖥

Magnetron

Этот проект был создан, с целью изучения понимания внутренней работы PyTorch и других популярных фреймворков глубокого обучения.

Главная цель проекта - создание с нуля минималистичного, но при этом мощного фреймворк глубокого обучения, который можно использовать как для исследований, так и для продакшена.

Фреймворк написан на C и Python и спроектирован так, чтобы его было легко понять и модифицировать.

Знаменитая цитат Ричарда Фейнмена - То, что я не могу создать, я не понимаю.

Создание собственного языка программирования, игрового движка и конечно фреймворка машинного обучения позволит понять, как работает современное программное обеспечение, до мельчайших деталей.

◾️GitHub
◾️Demo
◾️Docs

@ai_machinelearning_big_data

#c99 #python #framework

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥4❤1

2.66K views17:55

Машинное обучение RU

💡Alibaba выпустили V-makeup - инструмент генрации макияжа с открытым исходным кодом

Позволяет делать качественный перенос макияжа с помощью диффузионных моделей

https://github.com/Snowfallingplum/SHMT

👍3❤1🔥1

2.79K views18:19

Машинное обучение RU

👩‍💻

Mlxtend (machine learning extensions) — это библиотека Python, предоставляющая полезные инструменты для анализа данных и задач машинного обучения!

🌟 Она включает модули для обработки данных, визуализации, построения моделей, кросс-валидации и других аспектов, упрощая выполнение повседневных задач в сфере Data Science.

🌟 Библиотека предназначена для расширения возможностей популярных инструментов, таких как scikit-learn, pandas и NumPy. Она содержит функции для построения ансамблей моделей, работы с наборами данных, выполнения статистического анализа и визуализации результатов.

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍5🔥3👏1

2.68K views12:01

Машинное обучение RU

Forwarded from Machinelearning

🖥

nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌

GitHub

📌

Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥3❤1

2.49K views17:05

Машинное обучение RU

🔥

Monolith — это высокопроизводительная платформа машинного обучения, разработанная для крупномасштабного обучения рекомендательных систем и обработки данных. Именно этот фреймворк отвечает за систему рекомендаций в TikTok!

🔐 Лицензия: Apache-2.0

🖥

Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤3🔥3

2.96K views13:04

Машинное обучение RU

⚡️ CPU vs GPU vs TPU Memory Subsystem Architecture

@machinelearning_ru

👍10🔥2🥰2👎1

2.55K viewsedited 05:03

Машинное обучение RU

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

Kokoro TTS — это модель 82M TTS, которая звучит очень реалистично и работает ⚡ быстро!

📌 HF: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

@machinelearning_ru

👍7❤2🔥2👎1🥰1

2.62K views07:01

2025/09/21 05:23:00
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>