Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6040

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Самые обсуждаемые работы в мире ИИ

🗞️ «Eliza: A Web3 friendly AI Agent Operating System»
Eliza — это операционная система агентов ИИ для Web3.

🗞️ «Enhancing Retrieval-Augmented Generation: A Study of Best Practices»
Изучение влияния различных компонентов RAG на качество ответов LLM.

🗞️ «LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs»
LlamaV-o1 представляет комплексную структуру для visual reasoning в LLM.

🗞️ «MangaNinja: Line Art Colorization with Precise Reference Following»
Модель, которая раскрашивает штриховые рисунки.

🗞️ «Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains»
Новый подход к finetuning мультиагентных программ, улучшающий LLM.

🗞️ «OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking»
OmniThink — фреймворк, разработанный для повышения качества статей, создаваемых LLM.

🗞️ «VideoRAG: Retrieval-Augmented Generation over Video Corpus»
VideoRAG использует видео, чтобы сделать ответы ИИ более точными.

👍2❤1

2.1K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧹 Очистка данных

Очистка данных — это один из самых трудоемких этапов любого аналитического проекта. Работа с пропущенными значениями, дубликатами и несоответствиями типов вручную может быть утомительной и повторяющейся.

✨ Мы делимся ключевыми техниками Python, которые помогут автоматизировать задачи по очистке данных.

Оригинал статьи

❤8👍2🥱1

2.31K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

💻 Git-квест: Прими вызов

10 испытаний — от простого push до загадочного cherry-pick. Сможете пройти их все и доказать, что достойны звания мастера репозиториев? 🏆

📍Квест

❤1

1.88K viewsedited 18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💻 Что больше всего отнимает время у специалистов по данным

На Reddit обсуждают, какие задачи или процессы становятся главными «поглотителями» времени для дата-сайентистов.

Ожидаемо, на вершине списка — бесконечные встречи и созвоны. А что ещё? Ответы можно найти в обсуждении: https://clc.to/-KkraQ

Это отличный способ и посмеяться, и понять, что вы не одиноки.

😀 А что занимает больше всего времени у вас?

😁6💯1

1.97K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🤖 📈 Data Science в 2025 году: 7 главных трендов

Разработчики JetBrains и Python Software Foundation рассказали, как изменится Data Science в ближайшие годы.

➡️

В статье:

▪️ Почему доля Python в анализе данных снижается
▪️ Какие библиотеки набирают популярность вместо pandas
▪️ Что происходит с AutoML, MLOps и визуализацией данных
▪️ И почему Rust и Julia наступают Python на пятки

Подробный разбор, новые инструменты и прогнозы на будущее — всё это читай в нашей статье.

🔵 Тренды меняются, но основы остаются — укрепи базу с нашим курсом «Математика для Data Science»

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

1.7K views17:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Почему нужно повторно обучать модели

Повторное обучение модели помогает улучшать ее производительность с учетом новых данных

Почему это важно
📉 Концептуальные изменения: распределение данных в реальном мире часто меняется, что приводит к ухудшению производительности модели.
📊 Новые закономерности: появление новых признаков в данных, которые модель должна учитывать.
⚙️ Оптимизация производительности: когда становится доступно больше размеченных данных, повторное обучение помогает повысить точность и уменьшить переобучение.

Типы повторного обучения
🔁 Запланированное обучение: периодическое повторное обучение модели (например, ежемесячно).
⏱️ Обучение по триггеру: инициация повторного обучения при определенных условиях, например, при снижении точности модели или значительном изменении распределения данных.
♻️ Непрерывное обучение: постоянное обновление модели по мере появления новых данных (инкрементальное обучение).

👀 Подробнее о том, когда пора обновлять ML-модели читайте в статье

👍5❤2

2.01K viewsedited 07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Zasper: IDE для дата-сайентистов

Zasper — это IDE, разработанная с нуля для работы с высокой степенью параллелизма. Она обеспечивает минимальное потребление памяти, исключительную скорость и возможность обрабатывать множество одновременных подключений.

👍 Идеально подходит для запуска приложений в формате REPL, таких как Jupyter Notebook.

Github

🤔7👍1🔥1

2.17K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Что такое DataDreamer

DataDreamer — это библиотека с открытым исходным кодом на Python для создания промптов, синтетических данных и рабочих процессов обучения.

✅ Простота: минимальный код для создания мощных рабочих процессов ИИ.
✅ Эффективность: библиотека оптимизирована для производительности с поддержкой нескольких графических процессоров.
✅ Исследовательский уровень: передовые методы генерации данных и обучения моделей.

Страница проекта
Github

❤2🤩1

1.99K views08:30

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Федеративное обучение

🔒 Конфиденциальность данных — одна из главных проблем внедрения ИИ в здравоохранение и банковскую сферу. Больницы и финансовые организации неохотно предоставляют данные для обучения моделей из-за строгих регуляций, а риски часто перевешивают возможные выгоды.

🚀 Федеративное обучение решает эту проблему. Вместо того чтобы передавать данные модели, модель отправляется к данным.

Как это работает
1️⃣ Модель предварительно обучается на сервере и отправляется на устройства пользователей.
2️⃣ Пользователи взаимодействуют с локальными моделями, которые дообучаются на месте.
3️⃣ Обновления локальных моделей отправляются обратно на сервер и усредняются.
4️⃣ Центральная модель синхронизируется с локальными версиями.

Google о федеративном обучении (классный комикс)
Блог TensorFlow

👍3🔥2❤1

1.97K views11:01

2025/07/08 18:00:15
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>