Telegram Web
✔️ Учёные Яндекса, НИУ ВШЭ,MIT, ISTA и KAUST разработали новый метод сжатия LLM без использования данных

Недавно был представлен HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) — data-free метод квантизации, который позволяет запускать большие языковые модели локально, за минуты, без GPU.

🔥 Особенности:
🟢Работает без обучающих данных (data-free)
🟢Квантизует даже модели масштаба DeepSeek R1 (671B) и Llama 4 Maverick (400B)
🟢Полностью open-source

📈 Результаты:
🟠Лучшее соотношение качество / размер среди всех data-free методов (NF4, HQQ и др.)
🟠Проверено на Llama 3, Qwen2.5
🟠Статья принята на NAACL 2025

Применение:
▶️Прототипирование без серверов и долгих калибровок
▶️Демократизация доступа к LLM
▶️Подходит для стартапов, исследователей, независимых лабораторий, образовательных и ограниченных сред

🛠 Установка:
pip install flute-kernel

🌟 Пример:
python 
from transformers import AutoModelForCausalLM, AutoTokenizer, HiggsConfig

model = AutoModelForCausalLM.from_pretrained(
"google/gemma-2-9b-it",
quantization_config=HiggsConfig(bits=4),
device_map="auto",
)


🟡Paper
🟡Hugging Face
🟡GitHub

@ai_machinelearning_big_data

#quantization #LLM #opensource #HIGGS #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍118🔥3932🥱8👏2
🌟 Firecrawl

Это open-source краулер для вытягивания всей информации с сайтов в markdown-формате, пригодном для обучения LLM

Пройтись по конкретному URL и его подстраницам можно так:

Firecrawl обрабатывает сложные случаи, включая динамический контент, JavaScript-рендеринг, PDF, изображения и защищённые страницы.

Поддерживает интеграцию с Langchain, LlamaIndex, Dify и другими инструментами, поддерживает Python, Node.js, Go и Rust.

Пройтись по конкретному URL и его подстраницам можно так:

curl -X POST https://api.firecrawl.dev/v0/crawl \
-H 'Content-Type: application/json' \
-H 'Authorization: Bearer YOUR_API_KEY' \
-d '{
"url": "https://mendable.ai"
}'

# { "jobId": "1234-5678-9101" }


Лиценизровавние: AGPL-3.0 license

GitHub
Инструкция по запуску локально

@ai_machinelearning_big_data

#llm #crawler
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70🔥36🥰94🤬1👨‍💻1💘1
🌟 В ElevenLabs обновили процесс профессионального клонированиея голоса (PVC) — теперь он стал максимально удобным:

Загружаете запись ваших диалогов или соло-записи (например, подкасты)
AI сам разделит голос по спикерам, дальше вы выбираете только голос для обучения

Второе прикрепленное видео - это туториал, который поможет добиться максимально реалистичного результата

🔒 По умолчанию ваш клон голоса — приватный и доступен только вам.
💸 Но так же у вас есть возможность монетизировать свой голос и получать роялти, когда кто-то генерирует аудио с вашим голосом.

🚀 elevenlabs.io/app/voice-lab

#voiceclone #ai #elevenlabs #voiceai #texttospeech
51👍40🔥22
✔️ Canva выпустила Visual Suite 2.0: единая платформа для креатива и продуктивности.

В версии 2.0 пользователи могут работать с презентациями, видео, интерактивными досками, сайтами и таблицами без переключения между сервисами. Главная новинка — Canva Sheets, переосмысление таблиц с поддержкой ИИ: функции вроде Magic Insights автоматизируют рутину, а интеграция с Google Analytics или HubSpot превращает данные в красочные диаграммы через Magic Charts.

Для разработчиков появился Canva Code — генератор кода на основе текстовых запросов. В нем достаточно описать идею, а ИИ подготовит решение. Обновился и фоторедактор: теперь фон меняется в пару кликов, а элементы изображения можно перемещать или перекрашивать прямо в рабочем интерфейсе.

Попробовать Visual Suite 2.0 можно уже сегодня — все новые функции доступны на сайте Canva.
canva.com

✔️ Apple представит улучшенную Siri с Apple Intelligence в iOS 19 этой осенью.

Apple готовит масштабное обновление для Siri — она получит новые возможности в iOS 19. Среди ключевых функций: редактирование и отправка фото по запросу, распознавание содержимого экрана, учёт личного контекста и глубокая интеграция с приложениями. Изначально эти фичи планировали включить в iOS 18.4 и показать на WWDC 2024, но релиз перенесли из-за внутренних разногласий и нехватки бюджета.

Крейг Федериги и Майк Роквелл, курирующие проект, считают, что конкуренты ещё не вывели AI на идеальный уровень. Это позволяет Apple не спешить и доработать Siri до премиального качества. Окончательный релиз запланирован на осень.
appleinsider.com

✔️ ByteDance и Qualcomm разрабатывают умные ИИ-очки.

Устройство сможет снимать фото и видео в высоком качестве, сохраняя заряд батареи — ключевая задача для носимой электроники. Партнёром проекта выступил Qualcomm: вместе компании планируют усилить VR- и ИИ-технологии в железе, о чём договорились на MWC 2025.

Это не первый шаг ByteDance в сегменте «умных» гаджетов: ранее они выпускали ИИ-наушники, а в 2021 году купили производителя VR-шлемов Pico. Новые очки станут прямым конкурентом Ray-Ban Hypernova за $1000+. Пока детали проекта уточняются: обсуждаются характеристики, стоимость и сроки релиза.
theinformation.com

✔️ Microsoft готовится к релизу Recall.

Microsoft начала финальный этап тестирования Recall — функции, которая автоматически сохраняет скриншоты действий на ПК с Copilot Plus для последующего поиска. Сейчас она доступна в Release Preview для участников программы Windows Insiders, что означает скорый выход обновления для всех пользователей Windows 11.

Выпуск Recall не раз откладывался: сначала из-за опасений экспертов по безопасности, позже — ради доработки защиты данных. Теперь для работы Recall потребуется явное согласие пользователя, а сохранение снимков можно в любой момент приостановить.

Функция останется эксклюзивом для новых Copilot Plus PC — возможно, это попытка минимизировать риски. Как отмечают тестеры, Recall одновременно впечатляет и настораживает: он удобен для поиска информации, но сама идея постоянного слежения за действиями вызывает вопросы.
blogs.windows.com

✔️ MIT представил метод PAC Privacy для защиты данных в ИИ без потери точности.

PAC Privacy автоматически определяет минимальный уровень «шума» (случайных данных), который нужно добавить в алгоритм, чтобы сохранить приватность — например, медицинских изображений — без ущерба для производительности. Улучшенная версия метода работает быстрее, анализируя не всю матрицу корреляций, а только дисперсии выходных данных.

Ключевая идея — стабильные алгоритмы, чьи предсказания мало меняются при небольших изменениях в данных, требуют меньше шума. Команда проверила это на классических алгоритмах: чем стабильнее модель, тем проще её обезопасить.

Метод уже протестирован против современных методов джейлбрейка, а его вычислительная эффективность выросла в разы. Работу поддержали Cisco, Capital One и Министерство обороны США.
news.mit.edu

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4717🔥10
📌Early-fusion vs Late-fusion: как архитектура влияет на эффективность мультимодальных моделей.

Исследование, проведенное Apple и Университетом Сорбонны в котором были проанализировали 457 архитектур, чтобы выяснить, действительно ли позднее слияние модальностей (late-fusion — когда изображения и текст обрабатываются отдельно до объединения ) имеет преимущества перед ранним слиянием (early-fusion). Оказалось, что early-fusion не только не уступают, но и превосходятlate-fusion при ограниченных ресурсах, требуя меньше параметров и быстрее обучаясь.

Early-fusion, где данные разных модальностей объединяются на начальных этапах, показал более высокую эффективность на небольших моделях. На модели с 300 млн. параметров такие архитектуры достигают лучших результатов с меньшими вычислительными затратами. Плюс, их проще развертывать — отсутствие отдельных визуальных энкодеров сокращает требования к инфраструктуре.

✔️ Ключевой вывод ресерча: мультимодальные модели масштабируются по законам, близким к языковым.

Оптимальное соотношение параметров и данных для обучения почти одинаково, но early-fusion требует меньше параметров при том же бюджете: при увеличении вычислительных ресурсов late-fusion вынуждена наращивать размер модели, тогда как early-fusion эффективнее использует дополнительные токены.

Авторы также проверили, как влияет на результаты внедрение MoE — техники, где модель динамически распределяет специализированные «эксперты» для разных типов данных.

Оказалось, MoE значительно улучшает производительность: разреженные модели с 8 экспертами сокращают потери на 15-20% по сравнению с плотными аналогами. При этом эксперты неявно специализируются — часть обрабатывает текст, другая фокусируется на изображениях, особенно в начальных и финальных слоях.

✔️ Практические советы из исследования:

🟢Экономия на инференсе: раннее слияние снижает стоимость вывода за счёт компактности.

🟢Данные важнее параметров: для MoE увеличение объёма обучающих данных даёт больший прирост качества, чем рост числа активных параметров.

🟢Универсальный роутинг: модели с «агностическим» распределением экспертов (без жёсткой привязки к модальностям) работают лучше, чем системы с предопределёнными правилами.


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #MMLM #ScalingLaw #MoE
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥2820👏1
🌟 NVIDIA добавила нативную поддержку Python в CUDA.

Python уже несколько лет уверенно лидирует среди языков программирования, а теперь стал ещё ближе к железу. На GTC 2025 NVIDIA объявила о полноценной интеграции Python в свой CUDA-стек.

Это значит, что писать код для GPU можно будет напрямую на Python — без погружения в C++ или Fortran. Как подчеркнул Стивен Джонс, архитектор CUDA, цель — сделать инструмент естественным для Python-разработчиков: «Это не перевод синтаксиса C на Python. Все должно работать так, как привыкли разработчики».

Раньше CUDA требовала глубокого понимания низкоуровневых языков и это здорово ограничивало аудиторию. Сейчас, когда Python стал стандартом в ML и DS, NVIDIA открывает двери для миллионов программистов. По данным The Futurum Group, в 2023 году CUDA использовали 4 миллиона человек — теперь их число может резко вырасти.

Техническая часть такая же обширная, как и ожидания этого события профессиональным сообществом.

🟢Во-первых, появилась библиотека cuPyNumeric — аналог NumPy, который переносит вычисления с CPU на GPU буквально заменой импорта.

🟢Во-вторых, CUDA Core переосмыслен для Python: здесь сделан упор на JIT-компиляцию и минимизацию зависимостей.

🟢В-третьих, добавлены инструменты для профилирования и анализа кода, а ускоренные C++-библиотеки теперь доступны из Python без потерь в производительности.

Но главное — новый подход к параллельным вычислениям. Вместо ручного управления потоками, как в C++, NVIDIA предлагает модель CuTile, которая оперирует массивами, а не отдельными элементами. Это упрощает отладку и делает код читаемым, не жертвуя скоростью. По сути, разработчики получают высокоуровневую абстракцию, скрывающую сложности железа, но сохраняющую гибкость.

Пока CuTile доступен только для Python, но в планах — расширение для C++. Это часть стратегии NVIDIA по поддержке новых языков: Rust и Julia уже на походе.

Python-сообщество уже может экспериментировать — например, интегрировать CUDA-ядра в PyTorch или вызывать привычные библиотеки. Теперь даже те, кто никогда не писал на C++, смогут использовать всю мощь GPU — осталось проверить, как это скажется на скорости создания прекрасных LLM светлого будущего.

🔜 Посмотреть полную презентацию на GTC 2025


@ai_machinelearning_big_data

#AI #ML #Python #CUDA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥173👍7730🤓1
📌Реализация многоязычной системы перевода с T5 и Transformers.

Небольшая статья, которая погружает в создание системы машинного перевода на базе модели T5, сочетая теорию с практикой: как настроить пайплайн перевода, генерировать альтернативные варианты и оценивать их через BLEU-метрику. Гайд балансирует между технической детализацией и понятным языком. Советы по установке библиотек, обработке ошибок и ссылки на документацию сэкономят время тем, кто только начинает работать с Transformers.

Примеры кода на Python, разбор параметров num_beams, length_penalty и честные замечания о слабых местах модели (проблемы с испанским) будут полезны для разработчиков, которые хотят быстро внедрить перевод в свои проекты.

Помимо базовой настройки есть объяснение, как расширить функционал: например, модифицировать метод translate() для вывода нескольких вариантов перевода с оценкой уверенности модели, как работает beam search и переходные вероятности.

Качество перевода — больная тема для NLP, и автор не идеализирует T5. Он показывает расхождения между внутренними баллами модели и объективной оценкой BLEU: даже высокие вероятности токенов не гарантируют точный перевод. Единственный минус — нет сравнения T5 с другими моделями (mBART). Но даже в таком виде статья - мастрид для всех, кто работает с мультиязычным NLP.


🔜 Читать полную статью

@ai_machinelearning_big_data

#tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥18🥰104
Media is too big
VIEW IN TELEGRAM
🤖 Fourier Intelligence выпустила Fourier N1 — первого полностью open-source гуманоидного робота!

Fourier N1 — это компактный робот ростом 1.3 м и весом 38 кг, способный развивать скорость до 3.5 м/с.

За плечами более 1000 часов полевых испытаний.

🌟 Всё открыто: → список комплектующих (BOM)
→ CAD-чертежи и 3D-модели
→ спецификации приводов
→ управляющий код — на GitHub

⚙️ В основе робота — фирменные приводы FSA 2.0, обеспечивающие высокую устойчивость и манёвренность даже на пересечённой местности.

🔜 Github
🔜Документация (включайте автоперевод)

#ai #robots #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥4117
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Sonic от Hunyuan — модель анимации портретов с озвучкой 🎶

Sonic генерирует говорящих аватаров (или даже поющих!) с выразительной мимикой и качественным липсинком.

👉 Что нового?
1️⃣ Оживляем статичные изображения на вход подается одна фотография + любое аудио → речь, пение
2️⃣ Temporal Audio Learning — использует аудио дорожку для точной синхронизации губ и естественной мимики
3️⃣ Decoupled Motion Control — управляет движением головы и выражениями лица отдельно
4️⃣ Time-aware Fusion — обеспечивает плавный переход между кадрами для непрерывного видеоряда

Модель демонстрирует очень качественный липсинк, разнообразие движений головы и мимики, натуральность и стабильность анимаций
Поддерживает генерацию длинных видео (подойдет для влогов, реклаы) в один клик
Кинематографичное качество: реалистичные позы, эмоции и сохранение идентичности референса

🔜Демо: http://demo.sonic.jixiaozhong.online/
🔜Проект: https://jixiaozhong.github.io/Sonic/
🔜 Github: https://github.com/jixiaozhong/Sonic
🔜 Статья: https://arxiv.org/pdf/2411.16331

#ml #lipsync #opensource #hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥2512🥱2😁1
Media is too big
VIEW IN TELEGRAM
🔥 Короткое видео от
Hunyuan, которое объясняет архитектуру гибридного трансформера Mamba, лежащего в основе моделей Hunyuan T1 и Turbo S.

🔜 Оригинал

#mamba #Hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56🔥2610
2025/07/12 09:28:12
Back to Top
HTML Embed Code: