Telegram Web
🔥 PostBot 3000 — это проект с открытым исходным кодом, который демонстрирует, как создать мощного AI-агента для генерации и стриминга ответов и артефактов

🌟 Он построен на Python с использованием FastAPI для API и Next.js для интерфейса. Этот проект помогает пользователям реализовать подобные решения, предоставляя примеры кода и шаги для локального развертывания

▪️GitHub

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥32
Forwarded from Machinelearning
⚡️ Stable Diffusion 3.5 Large.

Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:

🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.

Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")


📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.


🟡Страница проекта
🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #ML #Diffusion #SDL #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥1
🖥 Бесплатный курс от Nvidia: Создание агентов RAG с LLM!

🌟 Агенты, работающие на основе больших языковых моделей (LLM), продемонстрировали хорошую способность к поиску для использования инструментов, просмотра документов и планирования своих подходов.

Этот курс покажет вам, как развернуть агентскую систему на практике для масштабирования ваших приложений в соответствии с требованиями пользователей и клиентов!

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍32👎2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Genmo выпустила Mochi 1 — это первая открытая модель для создания видеороликов на основе текста, созданная на базе архитектуры AsymmDiT с параметрами в размере 10 миллиардов.

В отличие от своих закрытых аналогов, Mochi 1 предоставляется бесплатно под лицензией Apache 2.0 и делает акцент на повышении качества движений и точности выполнения заданий.

Модель применяет технологию video VAE для эффективного сжатия данных, тем самым уменьшая потребности в памяти. Однако текущая версия поддерживает разрешение лишь до 480p, но вскоре будет выпущено обновление с поддержкой HD.

Ссылка на GitHub: https://github.com/genmoai/models

@machinelearning_ru
👍42🔥2😱2
Pangea-7B - полностью открытый MLLM для 39 языков

Обучен на основе разнообразного набора данных с 6 миллионами мультиязычных мультимодальных данных для настройки инструкций, охватывающих 39 языков

Полностью открытый дотаяет, код и контрольные точки

▪️Модель: https://huggingface.co/collections/neulab/pangea-6713c3b0d78a453906eb2ed8
▪️Документация: https://huggingface.co/papers/2410.16153

@machinelearning_ru
🔥7👍21
🚗 ParkingE2E: Комплексный инструмент для настройки авто парковщика для автомобиля на базе камер, от получения изображений до планирования движения автомобиля.

Видео
Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥2
🖥 client-researcher — инструмент для автоматизации исследований и создания отчетов на основе профилей клиентов. Он включает несколько агентов: для генерации профилей, поиска информации и составления отчета

⭐️ Скрипты можно запускать отдельно или как часть общего процесса. Проект основан на использовании ИИ для персонализированного контент-ресерча и предназначен для создания удобных отчётов в формате Markdown, используя API, такие как OpenAI.

🖥 GitHub

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3🔥1
🔥 Вышел релиз 3.0.0 библиотеки transformers.js от HuggingFace!

🔍 Основные нововведения:

🌟 Поддержка WebGPU (до 100 раз быстрее, чем WASM!). WebGPU — это новый веб-стандарт для ускоренной графики и вычислений. API позволяет веб-разработчикам использовать GPU базовой системы для выполнения высокопроизводительных вычислений непосредственно в браузере. WebGPU является преемником WebGL и обеспечивает значительно лучшую производительность

🌟 Этот релиз увеличивает общее количество поддерживаемых архитектур до 120, охватывая широкий спектр модальностей ввода и задач. Среди известных новых имен: Phi-3, Gemma & Gemma 2, LLaVa, Moondream, Florence-2, MusicGen, Sapiens, Depth Pro, PyAnnote и RT-DETR

🌟 25 новых примеров проектов и шаблонов в репозитории проекта!

🌟 Transformers.js теперь совместим с Node.js (ESM + CJS), Deno и Bun!

🖥 Читать подробнее

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2👏21
🚀🚀 Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

Inf-CLIP: Модель с высокой эффективностью использования памяти

🔑🔑 Ключевые особенности:
- Многоуровневое разбиение для оптимизации использования памяти (и практически без снижения эффективности обучения)
- - сокращение затрат использования памяти в 78 раз (размер пакета =256 КБ) и 281 раз (batch size =1 М) по сравнению с OpenCLIP без ущерба для точности
- Поддержка батчей размером до 4 М на 8 * A800s и 12 М на 32 * A800s

▪️Статья: https://huggingface.co/papers/2410.17243
▪️Github: https://github.com/DAMO-NLP-SG/Inf-CLIP
▪️Pypi: https://pypi.org/project/inf-cl/

@machinelearning_ru
👍32🔥2
Forwarded from Machinelearning
✔️ Релиз библиотеки Transformers.js v3.

Hugging Face выпустила Transformers.js v3, с улучшенной поддержкой WebGPU, новых форматов квантования и 120 поддерживаемых архитектур.

WebGPU обеспечивает вычисления на GPU непосредственно в браузере, что делает Transformers.js v3 до 100 раз быстрее по сравнению с WASM.

Новые форматы квантования позволяют выбирать уровень точности модели: fp32, fp16, q8 и q4. Среди поддерживаемых архитектур - Phi-3, Gemma, LLaVa, Florence-2 и MusicGen.

Transformers.js v3 совместима с Node.js, Deno и Bun, а также доступна на NPM - @huggingface/transformers.
huggingface.co

✔️ Британский регулятор начал расследование партнерства Alphabet и Anthropic.

Британское управление по конкуренции и рынкам (CMA) начало расследование партнерства Alphabet, материнской компании Google, с Anthropic.

Alphabet инвестировала 500 миллионов долларов в Anthropic в 2023 году с обещанием дополнительных 1,5 миллиарда долларов в будущем.

CMA изучает, не приведет ли партнерство к ограничению конкуренции на рынке. Регулятор должен принять решение о дальнейших действиях к 19 декабря 2024 года. Alphabet и Anthropic пока не прокомментировали ситуацию.
cityam.com

✔️ Fujitsu представила динамический распределитель ресурсов для ИИ-серверов и HPC-систем.

Fujitsu разработала программное обеспечение, для оптимизации использования GPU -"Сomputing broker".

Computing broker способен перераспределять процессы даже во время их работы, отдавая приоритет задачам с более высокой эффективностью выполнения. В ходе предварительного тестирования Fujitsu удалось достичь увеличения производительности обработки GPU до 2,25 раз.

Технология также эффективно управляет памятью, обрабатывая рабочие нагрузки ИИ объемом до 150 ГБ, что примерно в пять раз превышает физическую емкость протестированных GPU. Fujitsu планирует расширить возможности технологии для поддержки нескольких GPU, установленных на нескольких серверах.
techspot.com

✔️ CEO OpenAI опроверг сообщение о GPT-5 Orion.

В статье The Verge утверждалось, что Orion будет ориентирован на корпоративных клиентов и будет доступен через API. В публикации также говорилось о планах Microsoft разместить Orion в Azure уже в ноябре.

Сэм Альтман назвал эту информацию "фейковыми новостями", не уточнив, какие именно детали публикации не соответствуют действительности. OpenAI недавно выпустила модели o1 и o1-mini, но их восприятие было сдержанным из-за высокой стоимости эксплуатации и ограниченных возможностей по сравнению с GPT.
venturebeat.com

✔️ В Китае построили дорогу длиной 157 километров без участия людей.

10 беспилотных машин распределяли смесь из утрамбованных камней и песка, а затем нанесли битумное связующее для формирования дорожного полотна. Автономные катки выравнивали поверхность и обеспечивали необходимую твердость. Дроны контролировали ход строительства и проводили топографические измерения, гарантируя соблюдение заданных параметров. Несколько сотрудников удаленно контролировали работу техники.

Новая технология позволила выполнить укладку дороги за один проход, исключив необходимость в дополнительных работах. Разработчики алгоритмов проекта отмечают, что роботизированная укладка дороги обеспечивает миллиметровую точность и более высокую скорость по сравнению с традиционными методами.

Проект является продолжением скоростной автомагистрали Пекин-Гонконг, общая протяженность которой составляет 664 километра. Построенный участок соединяет Пекин с Хэбэем.
xatakaon.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥1
🔥 Awesome-LLM-Strawberry — коллекция материалов, посвящённых большим языковым моделям (LLM) и методам рассуждения. В него входят статьи, блоги и проекты, связанные с работами OpenAI, такими как "Chain-of-Thought Prompting" и другими техниками, направленными на улучшение reasoning (логических рассуждений) у LLM

🌟 Репозиторий предназначен для исследователей и разработчиков, заинтересованных в прогрессе языковых моделей и их применении для сложных задач, таких как решение математических проблем и автоматическое доказательство теорем

🔐 Лицензия: Apache-2.0

▪️Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥2
🔥 Эта статья исследует свойства нейросетевых трансформеров при многократном использовании обучающих примеров, особенно на задачах математики, таких как вычисление НОД, умножение по модулю и нахождение собственных значений матриц

🌟 В работе показано, что модели, обученные на ограниченном наборе повторяющихся примеров, часто превосходят те, что используют более разнообразные данные. Статья подчеркивает важность повторов для улучшения производительности, несмотря на меньшую вариативность данных, что помогает лучше понять баланс между запоминанием и обобщением в глубоких нейросетях

📖 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74🔥2
Media is too big
VIEW IN TELEGRAM
⚡️ The OG: Отец нейронных сетей Уоррен Маккаллох рассказывает о разуме, мозге, мыслящих и чувствующих машинах

Невролог, который много лет назад помогал создавать это направление и видел будущее компьютеров и искусственного интеллекта.

В первой части этого фильма, снятого в 1962 году, демонстрируются возможности компьютерного "искусственного интеллекта", намного превосходящие возможности любого человеческого мозга. Во второй части показаны эксперименты по электронному воспроизведению некоторых сенсорных восприятий.

@machinelearning_ru
👍63🔥3
🔥 Создание ИИ для распознавания изображений: от концепции до кода!

🌟 Научитесь строить визуальную языковую модель с нуля. В этом руководстве рассматриваются кодирование, механизмы внимания и многое другое, что поможет вам создать ИИ, который может описывать изображения!

🕞 Продолжительность: 5:46:05

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64👎1
✔️ Google разрабатывает ИИ-инструмент, способный управлять браузером для выполнения задач.

Google работает над технологией ИИ под рабочим названием Project Jarvis, которая позволит ИИ автономно управлять веб-браузером для выполнения задач поиска информации и совершения покупок.

Google планирует представить Project Jarvis в декабре, одновременно с выпуском новой большой языковой модели Gemini. Разработка Google направлена на то, чтобы ИИ мог напрямую взаимодействовать с компьютером или браузером пользователя.

Примечательно, что конкурент Google по технологиям поиска, Microsoft, тоже работает над аналогичной технологией.

📌 finance.yahoo.com

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍2😱2
👩‍💻 DocETL — это инструмент на Python для создания и выполнения конвейеров обработки данных, особенно подходящий для сложных задач обработки документов. Он применяет подходы с минимальным кодом и YAML для упрощенного управления потоками данных, обеспечивая модульность и возможность повторных попыток обработки данных при сбоях

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2
2025/07/13 18:33:35
Back to Top
HTML Embed Code: