Telegram Web
Forwarded from Python/ django
🖥 10 малоизвестных библиотек Python для работы с данными

PyGWalker: PyGWalker упрощает рабочий процесс анализа и визуализации данных в Jupyter Notebook, превращая фрейм данных pandas (или фрейм данных polars) в пользовательский интерфейс в стиле Tableau для визуального исследования.

SciencePlots: Создаёт профессиональные графики matplotlib для презентаций, исследовательских работ и т.д.

CleverCSV: Устраняет ошибки синтаксического анализа при чтении CSV-файлов с помощью Pandas.

Fastparquet: Ускоряет ввод-вывод pandas в 5 раз.

Bottleneck: ускоряет работу методов NumPy в 25 раз. Особенно, если массив имеет значения NaN.

Multipledispatch: предоставляет методы для перегрузку функций в Python.

Aquarel: дополнительные стили графиков matplotlib.

Modelstore: библиотека моделей машинного обучения для лучшего отслеживания работы моделей.

Pigeon: помогает анотировать данные щелчками мышки в Jupyter notebook.

Nbcommands: помогает легко выполнять поиск кода в Jupyter notebooks, а не выполнять это вручную.

📌Подробнее с примерами кода

@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥1
🚀 Как распределить и оптимизировать нагрузку для моделей, использующих как GPU, так и CPU.

Руководитель группы автоматической генерации рекламы из Яндекса поделилась опытом генерации миллиардов рекламных объявлений с использованием YandexGPT и BERT-модели.

https://habr.com/ru/companies/yandex/articles/842024/

@bigdatai
5👍2
🖥 Энтузиаст сделал "альтернативу ChatGPT-o1" (По его заявлениям).

🌟 Модель успешно проходит тесты вроде количества "r" в "strawberry"

🌟 Автор отмечает, что она также хорошо справляется с логическими задачами, с которыми не могут справиться даже модели вроде o1, 4o или Claude

🌟 Модель разбивает комплексные задачи на более мелкие, что способствует более точному решению

🔐 Лицензия: не указана

👩‍💻 Написана на Python с использованием React для фронтенда

▪️Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥21🎉1
🖥 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница?

💡В этой статье автор затрагивает историю появления баз данных, сравнивает концепции архитектур данных, их преимущества и недостатки

🔗 Ссылка: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🎉3🔥2👏1
Forwarded from Machinelearning
🌟 Emu3: набор MMLM, основанный на методе предсказании следующего токена.

Модели Emu3 разработаны для задач мультимодальной генерации и восприятия: генерации изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео.

Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования.

Процесс генерации в Emu3 начинается с обработки моделью начальной последовательности токенов (например, текстовое описание для генерации изображения).

Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео).

▶️ Представлены 3 модели:

🟢Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы;

🟢Emu3-Gen – модель для генерации изображений по текстовому описанию;

🟢Emu3-VisionTokenizer – токенизатор изображений для преобразования изображений и видео в дискретные токены.

Для обучения использовались наборы данных Aquila, LAION-High-Resolution, InternVid, MSCOCO-30K, GenEval, T2I-CompBench, DPG-Bench, SEED-Bench, RealWorldQA, OCRBench и VBench.

Результаты тестирования показывают превосходство Emu3 над SDXL в генерации и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений.

Инференс моделей пока доступен только в СLI на Transformers, примеры для генерации или описания входного изображения можно найти в репозитории проекта.

⚠️ Информации о технических требованиях по GPU разработчиками Emu3 не предоставлено.

▶️Локальная установка:

# Clone the repository
git clone https://github.com/baaivision/Emu3
cd Emu3

# Install requirements
pip install -r requirements.txt


📌Лицензирование : Apache 2.0 License.


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Text2Video #Text2Image
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
🔥SFR-Judge 🔥 семейство LLM, специализирующееся на критике и оценке модельных ответов от других языковых моделей.

SFR-Judge выпущен в трех размерах (8B, 12B и 70B) и отлично справляются с тремя задачами оценки: парные сравнения («Ответ A лучше ответа B?»), одиночные оценки («Оцените ответ по шкале Лайкерта от 1 до 5») и классификация («Отвечает ли ответ модели желаемым критериям?»).

SFR-Judge прошел оценку на различных задачах, соответствующих различным сценариям, таким как моделирование вознаграждения, качество рассуждений и безопасность ответов. В среднем SFR-Judge демонстрирует высокую общую производительность, проявляя меньшую предвзятость суждений, чем другие модели.

📘 Статья: https://arxiv.org/abs/2409.14664
🧠 Блог: https://blog.salesforceairesearch.com/sfr-judge/

@bigdatai
👍31🔥1
🖥 AimRT — современный фреймворк для робототехники!

🌟 Легковесный и простой в развертывании: разработан на C++ и предлагает современные подходы к управлению ресурсами, асинхронному программированию и конфигурации.

🌟 Поддержка разных сценариев: подходит для работы на устройствах роботов, периферийных и облачных платформах.

🌟 Интеграция с ROS2, HTTP, Grpc и другими экосистемами, а также гибкий интерфейс для создания плагинов.

🔐 Лицензия: самописная (не имеет широкого названия)

▪️Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42😁1🎄1
🖥 Lotus — визуальная фундаментальная модель, основанная на диффузии, для задач dense prediction. В отличие от традиционных методов, она напрямую предсказывает аннотации вместо шума и использует одношаговую процедуру, что упрощает оптимизацию и повышает скорость.

🌟 Модель достигает SoTA уровня, предлагая более точные и детализированные прогнозы, чем у моделей конкурентов.
🔗 Ссылка: *клик*
🔗 Huggingface: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
🖥 Nvidia представила MaskedMimic — единый унифицированный контроллер для физически смоделированных гуманоидов. Эта система способна генерировать широкий спектр движений на различных ландшафтах из интуитивно определенных пользователем прометав. Модель позволяет создавать естественные и универсальные анимации для виртуальных персонажей.

🔗 Подробнее: *клик*
▪️Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2👏2
🎓 Качественный Dataset сгенерированный, с помощью Claude Opus.

Он содержит более 20 тысяч технических вопросов и ответов для LLM. В нем содержатся системные промыты в стиле Orca для получения различных ответов.

https://huggingface.co/datasets/migtissera/Synthia-v1.5-I

@bigdatai
👍51🔥1
🎓 Daily Research Bot

Бот Discord на базе ИИ, который поможет вам быть в курсе последних исследований, связанных с ИИ, требующие мало ресурсов.

В нем собраны последние статьи из таких источников, как Hugging Face, блог Элвиса Саравиа и другие с краткой информацией.

git clone https://github.com/yourusername/daily-research-bot.git
cd daily-research-bot


🔗 Github

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Starry AI — бесплатное приложение-генератор картинок на базе искусственного интеллекта, преобразующее текст в потрясающие изображения

🌟 Создавайте до пяти произведений искусства ежедневно, без водяных знаков. Настраивайте свои творения с помощью различных моделей, стилей, соотношений сторон и начальных фотографий

🔗 Ссылка: *клик*

@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥32
📊 Обработка больших данных с использованием Apache Flink

Apache Flink предлагает расширенные возможности для потоковой и пакетной обработки данных.

💼 Эта мощная платформа призвана помочь вам поработать с миллионами записей в реальном времени.

Поддерживает сложные события и состояние в реальном времени.

🔗 Ознакомьтесь с ресурсами: Apache Flink Documentation

💡 Откройте для себя новые горизонты обработки данных!

@bigdatai
🔥4👍21
2025/07/08 15:37:44
Back to Top
HTML Embed Code: