@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👎7👍4😁3❤2🥰1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
🚀 Свежий 100% бесплатный API с дистиллированным DeepSeek-R1 Llama 70B.
Доступно на Together AI, они размещают эти модели в своих собственных центрах обработки данных, и никакие данные не отправляются обратно в DeepSeek.
Примечание: эндпоинт бесплатной модели имеет ограничения по скорости и производительности по сравнению с их платными режимами Turbo, тем не менее все работает.
https://api.together.ai/playground/chat/deepseek-ai/DeepSeek-R1-Distill-Llama-70B-free
@machinelearning_ru
Доступно на Together AI, они размещают эти модели в своих собственных центрах обработки данных, и никакие данные не отправляются обратно в DeepSeek.
Примечание: эндпоинт бесплатной модели имеет ограничения по скорости и производительности по сравнению с их платными режимами Turbo, тем не менее все работает.
https://api.together.ai/playground/chat/deepseek-ai/DeepSeek-R1-Distill-Llama-70B-free
@machinelearning_ru
🔥8👍4👎3❤1
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤2🔥2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2
Forwarded from Machinelearning
⚡ LitGPT
20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.
Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs
Установка:
Пример:
▪Github
▪Docs
▪Video
@ai_machinelearning_big_data
#LitGPT #tutorial #llm #ai #ml
20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.
Особенности:
Установка:
pip install 'litgpt[all]'
Пример:
from litgpt import LLM
llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.
▪Github
▪Docs
▪Video
@ai_machinelearning_big_data
#LitGPT #tutorial #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤4👏1
Forwarded from Machinelearning
Mixture-of-Mamba — экспериментальная архитектура, которая делает мультимодальные модели (работающие с разными типами данных, например, текстом, изображениями и речью) более эффективными и быстрыми. Она использует идею разреженности, чтобы уменьшить количество вычислений, сохраняя при этом высокое качество работы модели.
Разреженность — это подход, при котором модель фокусируется только на приоритетных данных, игнорируя менее значимые. Это похоже на то, как человек читает текст: мы не вникаем в каждую букву, а схватываем ключевые слова и фразы. В ML разреженность позволяет: уменьшить вычислительные затраты, ускорить обучение и инференс, повысить качество.
Mixture-of-Mamba добавляет модально-ориентированную разреженность в блоки Mamba и динамически выбирает модально-специфичные веса в каждом компоненте обработки ввода блоков Mamba.
В отличие от MoE-Mamba, где разреженность применяется только к MLP-слоям, Mixture-of-Mamba модифицирует непосредственно структуру блока Mamba. Модально-специфичная параметризация применяется к входной проекции, промежуточным и выходной проекциям. Сверточные слои и переходы состояний остаются общими.
Обучение Mixture-of-Mamba происходит в 3 модальных режимах: Transfusion (чередование текста и непрерывных токенов изображений с диффузионной потерей), Chameleon (чередование текста и дискретных токенов изображений) и расширенная трехмодальная среда со включением речи.
В Transfusion Mixture-of-Mamba достигает эквивалентных значений потерь для изображений, используя при этом лишь 34.76% от общего объема вычислительных ресурсов (FLOPs) при масштабе модели 1.4B. В сценарии Chameleon аналогичный уровень потерь при обработке изображений при использовании 42.50% FLOPs, а при обработке текстовых данных – 65.40% FLOPs. В трехмодальной среде Mixture-of-Mamba показывает потери в речевом режиме при 24.80% FLOPs на масштабе 1.4B.
@ai_machinelearning_big_data
#AI #ML #MMLM #Mamba #MixtureOfMamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
⚡️ OmniHuman-1 - новая ИИ-модель генерации видео от китайской компании ByteDance
Все видео были сгенерированы из одного входного изображения и одной аудио дорожки.
По сравнению с существующими методами OmniHuman не только создает более реалистичные видео, но и обеспечивает большую гибкость в управлением генерацией.
https://huggingface.co/papers/2502.01061
Все видео были сгенерированы из одного входного изображения и одной аудио дорожки.
По сравнению с существующими методами OmniHuman не только создает более реалистичные видео, но и обеспечивает большую гибкость в управлением генерацией.
https://huggingface.co/papers/2502.01061
👍12❤4🔥3
OpenAI o3-mini - Thinking AI for Free…For Everyone!
https://www.youtube.com/watch?v=oKx2xQQl--Q
@machinelearning_ru
https://www.youtube.com/watch?v=oKx2xQQl--Q
@machinelearning_ru
YouTube
OpenAI o3-mini - Thinking AI for Free…For Everyone!
❤️ Check out Weights & Biases and sign up for a free demo here: https://wandb.me/papers
o3 mini: https://openai.com/index/openai-o3-mini/
OpenAI Deep Research: https://openai.com/index/introducing-deep-research/
🤝 Interested in sponsoring us? Click here:…
o3 mini: https://openai.com/index/openai-o3-mini/
OpenAI Deep Research: https://openai.com/index/introducing-deep-research/
🤝 Interested in sponsoring us? Click here:…
👍4❤2🔥2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👎2👏2❤1🔥1
Когда Smol становится big: Обучение небольшой языковой модели, ориентированной на данные.
https://huggingface.co/papers/2502.02737
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🔥2
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1👍1