🦾 Berkeley Humanoid Lite — открытый человекоподобный робот
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
🌟 100 % open-source под MIT-лицензией: прошивки, схемы, BOM, STL-модели, RL-контроллеры
✔️ Open Hardware: доступные в рознице электро- и мехкомпоненты, детали печатаются на обычном FDM-принтере
➡️ Итоговая стоимость сборки — примерно 5 000 USD
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
➡️ Экосистема: Isaac Lab / Isaac Sim / MuJoCo, телеметрия через SteamVR-контроллеры
⏩ Что доступно:
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
🌟 Что робот умеет уже сейчас
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
🔥 Как удалось удешевить:
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
🔜 Проект
🔜 Код
🔜 Схемы
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Калифорнийский университет Беркли представил проект Humanoid Lite — результат многолетних исследований и экспериментов по созданию простых в производстве человекоподобных роботов.
Платформа полностью придерживается принципов Open Hardware: в ней используются свободно распространяемое ПО, серийные комплектующие, доступные в розничной продаже, а также детали, напечатанные на 3D-принтере.
⭐️ Модульная конструкция: легко превращается в квадропода или «кенавроподобного» робота
- Исходный код робота на C++ и Python
- Модели машинного обучения для контроллера движений
- Чертежи пластиковых деталей
- Полный список комплектующих с ссылками на покупку
- Пошаговый сборочный план
- Симуляционные окружения для тренировки и запуска робота
- локомоция: RL-контроллер приводит в заданную точку
- телеприсутствие: человек управляет манипулятором через VR-контроллеры
- навигация: экспериментальные алгоритмы обхода препятствий
- поддержка мелкой моторики
- пластиковые шестерни, напечатанные на 3D-принтере
- циклоидные редукторы, повышающие надёжность пластика
- использование типовых драйверов и контроллеров без кастомных плат
*Clone → Print → Build → Hack!* 🤓
@ai_machinelearning_big_data
#robots #ai #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍67❤17🔥10🤩3
This media is not supported in your browser
VIEW IN TELEGRAM
Осенью 2021 года Яндекс впервые представил функцию закадрового перевода видео в Браузере.
Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.
✔️ Как это работает?
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:
1. Улучшение качества zero-shot синтеза
Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.
🟡 Интеграция биометрических эмбеддингов.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.
🟡 Управление качеством через UTMOS.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.
2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥
3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.
Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.
Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.
4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.
Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.
🌟 Чего удалось добиться?
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.
🟢 Голос сохраняет интонации и тембр оригинала.
🟢 Существенно снизилось количество ошибок произношения и почти исчез акцент при кросс-языковом переносе.
🟢 Производительность позволяет обслуживать миллионы пользователей в режиме реального времени в Браузере.
🔜 Оценка качества
Внутренние тесты методом попарного сравнения (side-by-side) показали:
Новый перевод предпочтительнее старой версии в 72% случаев.
При сравнении с ElevenLabs:
- В полном переводе видео Яндекс выигрывает в 62% случаев.
При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.
Где работает?
Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.
🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.
В планах:
🟢 Синхронизация движений губ с закадровым переводом для ещё более реалистичного восприятия.
🟢 Дальнейшее ускорение инференса без потерь в качестве.
Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.
@ai_machinelearning_big_data
#yandex #tts
Сначала система использовала два стандартных голоса — мужской и женский — затем перешла на ограниченный набор синтезированных голосов. Но теперь команда Яндекса сделала качественный рывок: новая технология перевода видео умеет сохранять тембр и интонации оригинального спикера, делая перевод естественным и живым.
В основе новой системы лежит собственная модифицированная версия Tortoise-TTS, которая изначально предлагала подход генеративного синтеза речи через последовательность аудиотокенов. Однако Яндекс значительно переработал архитектуру, решив сразу несколько ключевых проблем:
1. Улучшение качества zero-shot синтеза
Переход на фонемное представление текста.
Вместо классических BPE-токенов Яндекс создал единый фонемный алфавит для английского и русского языков. Это позволило добиться более точного произношения, особенно на сложных заимствованных словах.
Для стабильного переноса тембра в языковую модель были добавлены векторные представления голоса, полученные через голосовую биометрию. Это обеспечило, что голос в синтезе звучит максимально близко к оригинальному, даже при смене языка.
В процесс инференса добавлено использование метрики качества речи UTMOS. Фиксированное значение UTMOS (3,75) позволяет удерживать естественность звучания без артефактов и роботизированности.
2. Решение проблемы акцента
Создание синтетического параллельного датасета.
Яндекс сгенерировал и отфильтровал пары «русский аудиопромпт → английский текст», чтобы научить модель правильно переносить тембр между языками без появления акцента. В результате процент синтеза с акцентом снизился с 50% до 5%🔥
3. Оптимизация скорости инференса
Сокращение количества гипотез и итераций.
Количество гипотез в языковой модели снижено с 512 до 16, а количество шагов в диффузионной модели — с 100 до 20, без потери качества.
Ускорение вычислений.
Использование torch.compile, flash attention, а также knowledge distillation в диффузионной модели, что позволило добиться RTF ≈ 0.18 — реального времени обработки, пригодного для масштабного-применения в продавшее.
4. Повышение качества аудиопромптов
Разработчики применили денойзинг, очищающий голос от фона и шума перед синтезом.
Используется автоматический выбор лучшего аудиопромпта на основе метрики UTMOS, что даёт максимально естественный перенос тембра.
Перевод видео звучит естественно, без ощущения «чужого» или «роботизированного» голоса.
Внутренние тесты методом попарного сравнения (side-by-side) показали:
Новый перевод предпочтительнее старой версии в 72% случаев.
При сравнении с ElevenLabs:
- В полном переводе видео Яндекс выигрывает в 62% случаев.
При сравнении только качества озвучки Яндекс выигрывает в 46% случаев.
Где работает?
Перевод нового поколения доступен в Яндекс Браузере для пользователей, вошедших в Яндекс ID, на популярных платформах: YouTube, VK Видео, Дзен, Rutube. При просмотре видео в Браузере нужно выбрать функцию перевода в панели управления.
🌟 Что дальше?
Команда Яндекса продолжает развивать технологию.
В планах:
Итог:
Яндекс создал передовую систему мультиязычного генеративного синтеза, объединив глубокие фундаментальные исследования и серьёзные инженерные оптимизации. Новый перевод видео делает язык барьером всё меньше, а восприятие — всё более естественным.
@ai_machinelearning_big_data
#yandex #tts
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100🔥50❤19🥱4🎉2🤣2🌭1🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Исследование Стэнфордского университета о распространенной и насущной проблеме: языковые модели все чаще жертвуют точностью ради того, чтобы угодить пользователям. Эксперименты с ChatGPT-4o, Claude-Sonnet и Gemini показали, что в 58% случаев модели меняют ответы под давлением — даже если изначально были правы.
Ресерч проводился на 2 наборах данных: AMPS (математика) и MedQuad (медицина). Сначала модели отвечали на вопросы, затем их «поправляли» через опровержения — от простых («вы ошиблись») до сложных, с цитатами и абстрактными конструкциями.
Если модель меняла ответ вопреки истине, это считалось регрессивной сикофантией, если исправляла ошибку — прогрессивной.
Сикофантия - это поведение, когда человек (в исследовании - языковая модель) пытается понравиться другим, часто лестью или подхалимством, чтобы получить выгоду или одобрение.
Ответы оценивали двумя подходами: автоматически (GPT-4o в роли «судьи») и вручную. Gemini лидирует по сикофантии (62%), ChatGPT — скромнее (56%), а Claude-Sonnet набрала 57.44%, заняв среднюю позицию среди трех тестируемых моделей.
Превентивные опровержения (вне контекста диалога) провоцируют больше регрессивных сдвигов, особенно в математике. Например, добавление цитат к опровержению заставляло модели чаще отказываться от верных ответов. А вот простые возражения, наоборот, помогали исправить ошибки (прогрессивная сикофантия). В медицине разница между типами опровержений менее выражена, но риски выше из-за специфики вопросов.
Устойчивость сикофантии тоже вызывает вопросы. После первого изменения ответа модели продолжали «прогибаться» в 78% случаев, независимо от контекста или темы. Это говорит о системной проблеме: LLM слишком зависимы от пользовательского фидбэка, даже если он противоречат фактам.
Как эта склонность влияет на практические кейсы? Во-первых, в медицине или финансах слепое доверие к моделям опасно: они могут поддержать ложные утверждения, если пользователь настаивает. Во-вторых, дизайн промптов становится ключевой техникой — опровержения с отсылками к авторитетам манипулируют сильнее. Авторы предлагают точечную настройку моделей под конкретные задачи и усиление механизмов проверки фактов.
Выводы исследования заставляют задуматься: как балансировать между «удобными» ответами и правдой? Пока что модели часто выбирают первое. Исправлять это придется через улучшение архитектур, создание механизмов фактчекинга, фильтрацию и прозрачность — в противном случае внедрение LLM в критических сферах останется авантюрой.
@ai_machinelearning_big_data
#AI #ML #LLM #Research
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66❤25🔥11🤣6😁1
В релиз вошли 2 MoE-модели и 6 Dense models (плотные модели), размером от 0.6B до 235B параметров.
🏆 Флагманская модель Qwen3-235B-A22B демонстрирует конкурентные результаты в задачах Кодина, математики и общих способностей, уверенно соперничая с передовыми моделями, такими как DeepSeek-R1, o1, o3-mini, Grok-3 и Gemini-2.5-Pro.
⚡ Небольшая MoE-модель Qwen3-30B-A3B превосходит QwQ-32B, использую в 10 раз меньше параметров.
🔥 Компактная модель Qwen3-4B сопоставима по производительности с Qwen2.5-72B-Instruct.
🧠 Поддерживает гибридный режим мышления
Режим размышления активируется при обработке сложных задач, обеспечивая пошаговый анализ запроса и формирование комплексных, глубоких ответов.
Базовый режим используется для повседневных вопросов, позволяя выдавать быстрые и точные ответы с минимальной задержкой.
Процесс обучения модели устроен похожим образом на то, как это сделано в DeepSeek R1.
Поддерживает 119 языков, включая русский.
Лицензирование: Apache 2.0 🔥
@ai_machinelearning_big_data
#Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥110👍28❤21
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity AI запустила в WhatsApp своего ИИ-помощника, который может искать в интернете, работать в режиме чат-бота (вести переписку), генерировать и понимать изображения прямо через платформу мессенджера.
Чтобы воспользоваться, нужно добавить контактный номер +1 (833) 436-3285 в WhatsApp.
В ближайшее время ожидается появление множества дополнительных функций.
@ai_machinelearning_big_data
#Perplexity #ai #ml #chatbot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55😁23👍17🔥10👏1
Oracle запустила первые стойки с жидкостным охлаждением на базе NVIDIA GB200 NVL72, оснащенные тысячами GPU Blackwell. Системы уже доступны клиентам через NVIDIA DGX Cloud и Oracle Cloud Infrastructure (OCI) для разработки агентного ИИ и моделей логического вывода. В развертывании задействованы высокоскоростные сети Quantum-2 InfiniBand и Spectrum-X Ethernet. Каждая стойка GB200 NVL72 объединяет 72 GPU Blackwell и 36 CPU Grace, повышая энергоэффективность для задач вроде обучения автономных систем или проектирования чипов.
OCI, входящая в число первых облачных провайдеров с доступом к GB200, планирует создать суперкластеры с более чем 100 000 GPU Blackwell. Это ответ на растущий спрос на вычисления для ИИ-инференса.
blogs.nvidia.com
Hugging Face анонсировал программируемую роботизированную руку SO-101. Модель стоит от $100, собирается быстрее предшественницы SO-100 и оснащена улучшенными моторами: они снижают трение и выдерживают вес манипулятора без перегрузок. Камера и поддержка RL позволяют роботу «научиться» базовым задачам — например, сортировать детали Lego.
Цена зависит от комплектации: готовые сборки из-за тарифов и наценок доходят до $500. В проекте участвовали The Robot Studio, Wowrobo и Seeedstudio. Параллельно компания расширяет робототехническое направление: недавно купила Pollen Robotics. Похоже, Hugging Face намерена закрепиться в opensource-робототехнике, делая технологии доступнее.
techcrunch.com
OpenAI обновил базовую модель GPT-4o, добавив улучшения в интеллект и «личность» ИИ. Но пользователи столкнулись с раздражающей подобострастностью: ChatGPT начал льстить так активно, что это вызвало волну критики в соцсетях. Сэм Альтман признал проблему, пообещав срочные исправления — часть уже в работе, остальные появятся на неделе.
В официальных заметках OpenAI упомянули «тонкие изменения в ответах», чтобы сделать диалоги продуктивнее. Однако на практике это вылилось в неестественное заискивание: ИИ стал навязчиво хвалить пользователей даже в простых диалогах.
Sam Altman в X (ex-Twitter)
Simular выпустил ИИ-агента для macOS, который предлагает уникальный подход к взаимодействию с пользователем. В отличие от облачных решений, он работает полностью локально — встраивается в среду macOS и использует встроенный WebKit. Это не только ускоряет процессы, но и гарантирует безопасность: данные не уходят в облако, а остаются на вашем Mac.
Агент поможет с рутиной: проверит расписания, может управлять корзиной при онлайн-шопинге, анализировать новости и агрегировать поиск в Интеренте. Тесты их фреймворка S2уже обошли результаты OpenAI и Anthropic в мобильных и десктоп-задачах.
macobserver.com
Более 200 студентов и преподавателей Пекинского университета разработали PHYBench — уникальный набор из 500 физических задач для оценки способностей ИИ. В проекте участвовали золотые медалисты международных олимпиад, так что бенчмарк получился максимально обширным, сложным и реалистичным.
PHYBench использует метод оценки EED Score. Вместо стандартного «правильно/неправильно» алгоритм сравнивает структуру формул в виде «деревьев выражений», как это делают преподаватели. Это позволяет точнее измерить, насколько ответ ИИ близок к идеалу.
Тесты показали: даже топовая Gemini 2.5 pro дала лишь 36,9% верных ответов, в то время как студенты достигли 61,9%. Ошибки ИИ связаны с двумя этапами: распознаванием физических условий и построением логики решения (модели часто путают ключевые переменные или «теряются» в многоэтапных расчетах).
phybench-official.github.io
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59❤27🔥15
GigaChat Audio — новая мультимодальная модель, которая не использует стандартную связку ASR + LLM. Вместо транскрипции звука в текст модель понимает аудиосигнал напрямую (end-to-end).
В сравнении side-by-side на 1200 диалогах GigaChat Audio понимает речь точнее:
• GigaChat Audio — 0.68;
• старая схема (ASR → GigaChat) — 0.32
⚡️Модель сравнялась с GPT-4o по 7 критериям (полезность, фактология, грамотность и др.) — особенно уверенно работает на русском языке.
GigaChat также умеет пересказывать, резюмировать и отвечать на вопросы по длинным аудиозаписям — включая лекции и подкасты. К слову, такими возможностями обладают далеко не все топовые LLM с аудиовходом.
@ai_machinelearning_big_data
#news #ai #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤70👍42🔥26😁4🌚4
Вдохновившись NanoGPT, команда Hugging Face разработала Picotron — минималистичный фреймворк для обучения моделей с поддержкой 4D-параллелизма (Data, Tensor, Pipeline, Context parallel).
Проект задуман как учебный инструмент и его код умещается в 300 строк, чтобы эксперименты и изучение тонкостей распределенного обучения были просты и доступны.
По тестам, Picotron показывает MFU до 38% на LLaMA-2-7B (64 GPU H100) и около 50% для SmolLM-1.7B (8 H100). Хотя производительность пока не рекордная, разработчики активно ее улучшают.
MFU (Model FLOPS Utilization) — это метрика, которая показывает, насколько эффективно используются вычислительные ресурсы GPU во время обучения модели. Она рассчитывается как отношение реально выполненных операций с плавающей точкой (FLOPS) к теоретически максимально возможному количеству операций этой видеокарты.
Фреймворк фокусируется на образовании — авторы выпустили серию обучающих видео, где шаг за шагом объясняют, как собрать систему с нуля и отдельный репозиторий с скриптами-примерами каждой операции.
Для старта достаточно создать конфиг через
create_config.py
и запустить обучение через torchrun
. Поддерживаются 3D-параллелизм, Slurm и даже CPU (но последний — медленно).⚠️ Picotron использует API HF, токен создать можно в профиле учетной записи тут.
@ai_machinelearning_big_data
#AI #ML #LLM #Parallelism #HuggingFace #Picotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥34❤31🤣7
Media is too big
VIEW IN TELEGRAM
В партнерстве OpenAI с Microsoft появляются трещины. Хотя Microsoft помогла проекту OpenAI ChatGPT добиться большого успеха за счет огромных инвестиций, у генеральных директоров обеих сторон имеются разногласия по таким вопросам, как предоставление вычислительной мощности, доступ к моделям и способность ИИ достичь AGI. Microsoft активно разрабатывал Copilot и тайно сформировал команду для разработки модели, которая заменит OpenAI.
Даже несмотря на то, что обе стороны готовятся к своему независимому будущему, они остаются в зависимости друг от друга. Microsoft имеет право не допустить преобразования OpenAI в независимую коммерческую компанию, в то время как OpenAI может помешать Microsoft получить доступ к своим самым передовым технологиям.
wsj.com
Duolingo объявила о запуске стратегии «AI-first» - компания постепенно откажется от наемных работников в пользу ИИ. Основатель, Луис фон Ан, в письме сотрудникам пояснил, что ИИ поможет убрать рутину, перестроить процессы и ускорить создание обучающего контента.
Внедрение ИИ коснется найма и оценки сотрудников — новые штатные позиции одобрят, только если команда не сможет автоматизировать задачи. При этом фон Ан подчеркивает: речь не о замене людей, а о перераспределении ресурсов. Сотрудникам обещают поддержку в обучении и переход к творческим проектам.
В Duolingo уверены, что ИИ не только повысит эффективность, но и приблизит миссию — сделать обучение доступным для миллионов. Технологии вроде «Video Call», имитирующие репетитора, уже тестируются. Компания готова мириться с временными недочетами в качестве, лишь бы не упустить момент.
theverge.com
Илон Маск написал в X, что на следующей неделе ранняя бета-версия Grok 3.5 будет выпущена только для подписчиков SuperGrok. По его словам, это первый ИИ, который может точно отвечать на вопросы о ракетных двигателях или электрохимических технологиях.
Elon Musk в X (ex-Twitter)
Audio Overviews, который превращает ваши источники в диалоги в стиле подкастов, теперь поддерживает свыше 50 языков. Помимо английского, доступны испанский, португальский, французский, хинди, турецкий и РУССКИЙ.
Чтобы сменить язык, нужно зайти в настройки NotebookLM (в правом верхнем углу), выбрать «Язык вывода» — и AI начнёт генерировать ответы и озвучивать обзоры на нужном вам языке. NotebookLM интегрирован ещё и в Gemini, а также Google Docs — так что даже текстовые документы можно превратить в аудиоформат.
blog.google
Разработчики llama представили новое приложение, где главной фишкой стал голосовой ассистент, работающий на модели Llama 4. В отличие от стандартных чат-ботов, здесь упор сделан на естественность диалога: ИИ генерирует речь в реальном времени благодаря полнодуплексной технологии, а не просто зачитывает текст. Пока функция доступна в США, Канаде, Австралии и Новой Зеландии — разработчики просят пользователей тестировать демо-режим и делиться фидбеком.
Приложение интегрируется с соцсетью компании, WhatsUp, и очками Ray-Ban Meta — начатый на одном устройстве диалог можно продолжить в веб-версии или мобильном интерфейсе. Ассистент учится на ваших данных: если подключить аккаунты соцсетей, он подстраивает ответы под интересы, запоминает предпочтения и предлагает персонализированные рекомендации.
Для тех, кто любит эксперименты, есть генератор изображений и шаблоны для документов — их можно редактировать голосом или текстом. А чтобы не перегружать интерфейс, голосовое управление включается одной кнопкой, а иконка микрофона всегда показывает, когда система вас «слышит». Скачать приложение уже можно на iOS и Android.
about.fb.com
У DeepSeek на подходе релиз (671B math/prover model), жаль не R2.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75❤23🔥14
Облако, которое вошло в топ — и не зря
MTС Web Services возглавил рейтинг GPU Cloud 2025 по версии CNews.
Ключевые критерии, по которым оценивали участников: технологичность, надёжность, универсальность, стоимость.
Что внутри лидирующего сервиса:
• 15 GPU-конфигураций на базе A100, V100, T4 и др.
• CPU Intel Xeon Gold разных поколений
• Поддержка Kubernetes, VDI и MLOps-инструментов и платформы для управления LLM -,MWS GPT
• Надёжная архитектура Tier III + DRaaS
• Гибкие/фиксированные ресурсы, выделенные сегменты
А еще лучшая цена при высокой гибкости и технологичности.
@ai_machinelearning_big_data
MTС Web Services возглавил рейтинг GPU Cloud 2025 по версии CNews.
Ключевые критерии, по которым оценивали участников: технологичность, надёжность, универсальность, стоимость.
Что внутри лидирующего сервиса:
• 15 GPU-конфигураций на базе A100, V100, T4 и др.
• CPU Intel Xeon Gold разных поколений
• Поддержка Kubernetes, VDI и MLOps-инструментов и платформы для управления LLM -,MWS GPT
• Надёжная архитектура Tier III + DRaaS
• Гибкие/фиксированные ресурсы, выделенные сегменты
А еще лучшая цена при высокой гибкости и технологичности.
@ai_machinelearning_big_data
😁46👍20🔥9❤8🤣7🥰6🥱6
Если вы хотите не просто запускать готовые модели, а понять, как они работают «под капотом», репозиторий Beyond-NanoGPT — то, что нужно. Этот проект аспиранта по CS Стэнфордского университета, который создан как мост между учебными примерами вроде nanoGPT и сложными наработками, предлагает десятки реализаций современных методов глубокого обучения.
Все написано с нуля на PyTorch, с детальными комментариями — идеально для тех, кто устал от абстрактных статей и беспощадного продакшн-кода. Каждая строчка кода написана так, что становится понятно, как его использовать на практике.
Застряли на уровне чтения бесконечных туториалов и хотите двигаться дальше? Этот репозиторий — отличный шаг. Он не сделает вас экспертом за неделю, но даст инструменты, чтобы разобраться в современных статьях и начать свои эксперименты. И да, здесь нет красивого веб-интерфейса или готовых SaaS-решений — только код, комментарии и ваше любопытство. Как и должно быть в ресерче.
Начать очень просто: клонируете репозиторий, ставите зависимости и можно погружаться в код. Архитектуры? Есть Vision Transformer для классификации изображений, Diffusion Transformer для генерации, ResNet и даже MLP-Mixer. Каждый скрипт — отдельный эксперимент.
Например, чтобы обучить DiT на датасете CIFAR-10, достаточно запустить
train_dit.py
. Все рассчитано на один GPU, так что даже без доступа к злым кластерам можно практиковаться. А если хочется разобраться в механизмах внимания, отдельные ноутбуки покажут, как работают Grouped-Query, линейное, разреженное или перекрестное внимание — с визуализациями и пояснениями.Проект не только про архитектуры, есть и прикладные техники. Хотите ускорить инференс языковой модели? Посмотрите реализацию KV-кэширования или спекулятивного декодирования — методы, которые сейчас активно используют в LLM-инфраструктуре.
Интересует RL? В разделе с обучением с подкреплением есть классика - DQN и PPO для Cartpole, а в планах — нейросеть для шахмат с MCTS. При этом код не просто работает, но и объясняет нюансы: почему в REINFORCE важна базовая линия, как избежать градиентного взрыва в трансформерах или чем RoPE-эмбединги лучше стандартных.
Часть разделов (Flash Attention, RLHF) пока в разработке. Но планы грандиозные: автор обещает все - от квантования весов до распределенного RL.
@ai_machinelearning_big_data
#AI #ML #LLM #Github #BeyondNanoGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥24❤12🤣3🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте, что учите язык не по учебникам, а через ситуации, в которых оказываетесь каждый день. Именно эту идею воплотила команда Google в проекте Little Language Lessons— трех экспериментах на базе Gemini API, которые делают обучение живым и контекстным.
Первый эксперимент, Tiny Lesson, решает проблему «как сказать это сейчас?». Вы описываете ситуацию — например, «потерял паспорт» — и получаете словарь и фразы в формате JSON. Всё благодаря промптам, где Gemini генерирует структурированные данные: массив терминов с транскрипцией и переводом, а также советы по грамматике.
Например, если целевой язык — японский, модель сама определит, нужна ли транскрипция ромадзи, и подготовит материал за 2 API-запроса. Это не просто список слов, а готовый микрокурс под конкретный сценарий.
Второй, Slang Hang, убирает «учебникоговорение». Тут Gemini выступает как сценарист: создаёт диалоги на целевом языке с культурными нюансами и сленгом. Все генерируется одним запросом — от контекста сцены до реплик с пояснениями. Пример: диалог продавца и туриста может включать неформальные выражения, которые не найдешь в стандартных учебниках.
Правда, иногда модель ошибается или придумывает выражения, так что без проверки носителем не обойтись. Но сам подход — дать пользователю «уши» в реальных разговорах выглядит перспективно, особенно с интеграцией Cloud Translation для мгновенного перевода.
Третий, визуальный эксперимент — Word Cam. Наводите камеру на объект, и Gemini не только определяет его (bounding box), но и предлагает слова вроде «подоконник» или «жалюзи». Детекция работает через Gemini Vision, а дополнительные дескрипторы (цвет, материал, примеры употребления) подтягиваются отдельным запросом. Для изучения бытовой лексики почти идеально, хотя точность сильно зависит от качества снимка.
Во всех экспериментах задействован Text-to-Speech — озвучка слов и фраз. Но есть нюанс: для редких языков голоса зачастую звучат неестественно или не совпадают с диалектом. Например, выберете мексиканский испанский, а синтезатор выдаст акцент из Мадрида. Разработчики честно признают: это ограничение текущих API, и над ним еще работать.
Little Language Lessons — начало переосмысления процесса обучения языкам. Проекту пока не хватает тонкой настройки под лингвистическую специфику (идиомы или региональные диалекты), но основа уже заложена.
@ai_machinelearning_big_data
#AI #ML #LLM #Gemini
Please open Telegram to view this post
VIEW IN TELEGRAM
❤66👍29🔥20🌭3