Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Llama 3.2 с ультрареалистичным звуком

> поддерживает клонирование голоса на английском и китайском языках
> обучен на 250 тысяч часов аудио
> модели 1B, 3B (скоро будет 8B)
> эмоциональная речь (счастье, сердитая речь, грустная, шепот)

> открытые весы и работа с трансформерами/ vllm

https://huggingface.co/HKUSTAudio/Llasa-3B
👍112🔥1
🔥 Kimi-k1.5 — это модель для генерации текста с открытым исходным кодом, разработанная MoonshotAI!

🌟 Она основана на современных архитектурах трансформеров и ориентирована на задачи создания контента, таких как написание текста, обработка языка и создание диалогов. Модель также обгоняет ChatGPT и Claude в бенчмарках.

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👎2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
👩🍳🍽️ Pic2Cook

Мгновенно превращайте любую картинку с едой в подробный рецепт и список покупок.

Приложение написано на базе
MistralAI Pixtral 12B.

git clone https://github.com/sophiamyang/pic2cook.git
cd pic2cook


Github
👍7🔥32
Forwarded from Machinelearning
🖤 Open R1

Разработчики с Hugging Face повторил полный цикл разработки DeepSeek - от сбора данных до обучения! 🔥

Цель этого репозитория - объяснить все части конвейера создания R1 таким образом, чтобы каждый мог повторить его или построить поверх него свой проект.

Из чего состоит проект:
- src/open_r1 содержит скрипты для обучения и оценки моделей, а также для генерации синтетических данных:
- grpo.py : обучение модели с помощью GRPO
- sft.py: простой SFT
- evaluate.py: оценка модели на основе тестов R1.
- generate.py: генерация синтетических данных с помощью Distilabel.
- Makefile содержит простую в выполнении команду для каждого шага конвейера R1.

Github

@ai_machinelearning_big_data


#opensource #DeepSeekR1 #huggingface #OpenR1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍63
🔥 Ultravox — мультимодальная LLM, которая может работать как с текстом, так и с аудио в реальном времени!

🌟 В отличие от традиционных систем, Ultravox не требует отдельного этапа распознавания речи (ASR) — аудио напрямую преобразуется в высокоразмерное пространство, используемое языковой моделью. Это обеспечивает высокую скорость обработки и позволяет модели учитывать такие аспекты речи, как эмоции и тайминг.

💡 Ultravox был обучен с использованием моделей, таких как Llama 3, Mistral и Gemma, и достигает впечатляющих показателей производительности, например, время до первого токена (TTFT) составляет около 150 мс. Модель поддерживает потоковую обработку аудио в текст, а в будущем планируется реализация обратного преобразования текста в аудио. Ultravox доступен для тестирования через локальные Gradio-демоверсии и может быть развернут для более сложных случаев использования, таких как работа в реальном времени.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1
⭐️ Загружается Новый Qwen

Версия Qwen2.5-VL.

https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
Forwarded from Machinelearning
💰 Банк Китая выделит 1 триллион юаней (137 миллиардов долларов) в течение 5 лет для противостояния США в гонке искусственного интеллекта.

Это прямой ответ на проект «Звездные врата».

Евросоюз: максимум, что мы можем сделать, — это выделить 10 миллиардов на ИИ регулирование.

#ai #news #stargate #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
👍212🔥2🤔2👎1
🖥Offline альтернативы ChatGPT

https://github.com/janhq/jan
5👎1
Forwarded from Machinelearning
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.

Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.

Модели
: https://huggingface.co/deepseek-ai/Janus-Pro-7B
https://huggingface.co/deepseek-ai/Janus-Pro-1B
Quickstart: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#3-quick-start 📖
Tech report: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

@ai_machinelearning_big_data


#ai #deepseek #opensource #Janus
🔥16👍6😁4
🔥 Agent Service Toolkit — полный набор инструментов для создания и управления сервисом AI-агентов!

🌟 Построенный на базе LangGraph, FastAPI и Streamlit, он включает сервер для обслуживания агентов, интерфейс для взаимодействия с ними и чат-приложение с пользовательским интерфейсом. Проект предоставляет готовый шаблон для быстрой разработки проектов на основе LangGraph.

💡 Основные функции включают поддержку потоковой передачи токенов и сообщений, модерацию контента с использованием LlamaGuard, асинхронный дизайн для эффективной обработки запросов, а также интеграцию с LangSmith для обратной связи.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1
Forwarded from Machinelearning
⚡️NVIDIA выпустили Eagle 2 — 1B, 2B и 9B VLM.

Eagle 2 - это обновление семейство мощных vision language моделей.

Модель 9B
превосходит GPT4o ChartQA, OCRBench и MathVista, а также Llama 3.2 Vision 90B и llava 70B 🔥

Может работать с длинным контекстом, поддерживает 4K, HD.

> Eagle2-9B превосходит InternVL2-8B и MiniCPM-v2.6 по всем 14 тестам
> Он превосходит Qwen2-VL-7B в 9 из 14 тестов и превосходит его в OpenCompass
> Конкурирует с более крупными моделями, такими как InternVL2-26B, LLaVa-OneVision-72B и LLaMa-3.2-90B-Vision
> Eagle2-9B превосходит GPT-4o на ChartQA, OCRBench и MathVista и близок к GPT-4o на DocVQA, MMStar, AI2D и OpenCompass
> В открытом доступе выложены модель и чекпоинты

🤗Hf: https://huggingface.co/collections/nvidia/eagle-2-6764ba887fa1ef387f7df067

@ai_machinelearning_big_data


#eagle #nvidia #vision #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3👍1😁1
😁31🔥52
Forwarded from Machinelearning
⚡️ Hailuo AI выпустили новую версию своего генератора видео T2V 01 Director, в которой упор сделан на контроль камеры!

Модель управления и движения камеры работает просто великолепно.

Что нового:
- Уменьшена хаотичность движений генераций.
- Повышена точность управления.
- Улучшена эстетика движения камеры.

📌 Попробовать

@ai_machinelearning_big_data


#video #ai #videogenerator #Hailuo
👍83
🔥 OmAgent — это Python-библиотека для создания мультимодальных языковых агентов!

🌟 Она обеспечивает простой интерфейс для разработки агентов, способных работать с текстом, изображениями, видео и аудио, скрывая сложные аспекты оркестрации рабочих процессов, управления очередями задач и оптимизации узлов. OmAgent включает поддержку мультимодальных моделей, таких как Vision-Language Models (VLM), и функционал для подключения мобильных устройств.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2🔥1
🔥 Perforator — уникальная система от Яндекса для оптимизации серверов и экономии на инфраструктуре

🌟 Это первый в России открытый инструмент непрерывного профилирования с подобным широким функционалом. Perforator помогает оценить код на уровне компании, находит неэффективности и показывает, какие участки потребляют слишком много ресурсов. В инфраструктуре Яндекса система уже оптимизировала работу крупнейших сервисов.

🌟 Система позволяет сократить затраты на серверное оборудование до 20%. Perforator работает без модификации исходного кода, поддерживает C++, C, Go, Rust (скоро добавят Python и Java).

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👎7👍4😁32🥰1
🔥 Awesome MCP Servers — это коллекция ресурсов, посвящённых серверам, использующим протокол Model Context Protocol (MCP)!

💡 MCP — это открытый протокол, который позволяет языковым моделям (LLMs) взаимодействовать с локальными и удалёнными ресурсами через стандартизированные серверные реализации. Репозиторий содержит список готовых к использованию и экспериментальных MCP-серверов, расширяющих возможности LLM за счёт доступа к файлам, базам данных, API, системам управления версиями и другим сервисам.

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
🚀 Свежий 100% бесплатный API с дистиллированным DeepSeek-R1 Llama 70B.

Доступно на Together AI, они размещают эти модели в своих собственных центрах обработки данных, и никакие данные не отправляются обратно в DeepSeek.

Примечание: эндпоинт бесплатной модели имеет ограничения по скорости и производительности по сравнению с их платными режимами Turbo, тем не менее все работает.

https://api.together.ai/playground/chat/deepseek-ai/DeepSeek-R1-Distill-Llama-70B-free

@machinelearning_ru
🔥8👍4👎31
2025/07/08 20:40:44
Back to Top
HTML Embed Code: