tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Самые обсуждаемые работы в мире ИИ
🗞️ «Eliza: A Web3 friendly AI Agent Operating System»
Eliza — это операционная система агентов ИИ для Web3.
🗞️ «Enhancing Retrieval-Augmented Generation: A Study of Best Practices»
Изучение влияния различных компонентов RAG на качество ответов LLM.
🗞️ «LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs»
LlamaV-o1 представляет комплексную структуру для visual reasoning в LLM.
🗞️ «MangaNinja: Line Art Colorization with Precise Reference Following»
Модель, которая раскрашивает штриховые рисунки.
🗞️ «Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains»
Новый подход к finetuning мультиагентных программ, улучшающий LLM.
🗞️ «OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking»
OmniThink — фреймворк, разработанный для повышения качества статей, создаваемых LLM.
🗞️ «VideoRAG: Retrieval-Augmented Generation over Video Corpus»
VideoRAG использует видео, чтобы сделать ответы ИИ более точными.
🗞️ «Eliza: A Web3 friendly AI Agent Operating System»
Eliza — это операционная система агентов ИИ для Web3.
🗞️ «Enhancing Retrieval-Augmented Generation: A Study of Best Practices»
Изучение влияния различных компонентов RAG на качество ответов LLM.
🗞️ «LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs»
LlamaV-o1 представляет комплексную структуру для visual reasoning в LLM.
🗞️ «MangaNinja: Line Art Colorization with Precise Reference Following»
Модель, которая раскрашивает штриховые рисунки.
🗞️ «Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains»
Новый подход к finetuning мультиагентных программ, улучшающий LLM.
🗞️ «OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking»
OmniThink — фреймворк, разработанный для повышения качества статей, создаваемых LLM.
🗞️ «VideoRAG: Retrieval-Augmented Generation over Video Corpus»
VideoRAG использует видео, чтобы сделать ответы ИИ более точными.
👍2❤1
🧹 Очистка данных
Очистка данных — это один из самых трудоемких этапов любого аналитического проекта. Работа с пропущенными значениями, дубликатами и несоответствиями типов вручную может быть утомительной и повторяющейся.
✨ Мы делимся ключевыми техниками Python, которые помогут автоматизировать задачи по очистке данных.
Оригинал статьи
Очистка данных — это один из самых трудоемких этапов любого аналитического проекта. Работа с пропущенными значениями, дубликатами и несоответствиями типов вручную может быть утомительной и повторяющейся.
✨ Мы делимся ключевыми техниками Python, которые помогут автоматизировать задачи по очистке данных.
Оригинал статьи
❤8👍2🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Git-квест: Прими вызов
10 испытаний — от простого push до загадочного cherry-pick. Сможете пройти их все и доказать, что достойны звания мастера репозиториев? 🏆
📍Квест
10 испытаний — от простого push до загадочного cherry-pick. Сможете пройти их все и доказать, что достойны звания мастера репозиториев? 🏆
📍Квест
❤1
💻 Что больше всего отнимает время у специалистов по данным
На Reddit обсуждают, какие задачи или процессы становятся главными «поглотителями» времени для дата-сайентистов.
Ожидаемо, на вершине списка — бесконечные встречи и созвоны. А что ещё? Ответы можно найти в обсуждении: https://clc.to/-KkraQ
Это отличный способ и посмеяться, и понять, что вы не одиноки.
😀 А что занимает больше всего времени у вас?
На Reddit обсуждают, какие задачи или процессы становятся главными «поглотителями» времени для дата-сайентистов.
Ожидаемо, на вершине списка — бесконечные встречи и созвоны. А что ещё? Ответы можно найти в обсуждении: https://clc.to/-KkraQ
Это отличный способ и посмеяться, и понять, что вы не одиноки.
😀 А что занимает больше всего времени у вас?
😁6💯1
Forwarded from Proglib.academy | IT-курсы
🤖 📈 Data Science в 2025 году: 7 главных трендов
Разработчики JetBrains и Python Software Foundation рассказали, как изменится Data Science в ближайшие годы.
➡️ В статье:
▪️ Почему доля Python в анализе данных снижается
▪️ Какие библиотеки набирают популярность вместо pandas
▪️ Что происходит с AutoML, MLOps и визуализацией данных
▪️ И почему Rust и Julia наступают Python на пятки
Подробный разбор, новые инструменты и прогнозы на будущее — всё это читай в нашей статье.
🔵 Тренды меняются, но основы остаются — укрепи базу с нашим курсом «Математика для Data Science»
Разработчики JetBrains и Python Software Foundation рассказали, как изменится Data Science в ближайшие годы.
▪️ Почему доля Python в анализе данных снижается
▪️ Какие библиотеки набирают популярность вместо pandas
▪️ Что происходит с AutoML, MLOps и визуализацией данных
▪️ И почему Rust и Julia наступают Python на пятки
Подробный разбор, новые инструменты и прогнозы на будущее — всё это читай в нашей статье.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
🎯 Почему нужно повторно обучать модели
Повторное обучение модели помогает улучшать ее производительность с учетом новых данных
Почему это важно
📉 Концептуальные изменения: распределение данных в реальном мире часто меняется, что приводит к ухудшению производительности модели.
📊 Новые закономерности: появление новых признаков в данных, которые модель должна учитывать.
⚙️ Оптимизация производительности: когда становится доступно больше размеченных данных, повторное обучение помогает повысить точность и уменьшить переобучение.
Типы повторного обучения
🔁 Запланированное обучение: периодическое повторное обучение модели (например, ежемесячно).
⏱️ Обучение по триггеру: инициация повторного обучения при определенных условиях, например, при снижении точности модели или значительном изменении распределения данных.
♻️ Непрерывное обучение: постоянное обновление модели по мере появления новых данных (инкрементальное обучение).
👀 Подробнее о том, когда пора обновлять ML-модели читайте в статье
Повторное обучение модели помогает улучшать ее производительность с учетом новых данных
Почему это важно
📉 Концептуальные изменения: распределение данных в реальном мире часто меняется, что приводит к ухудшению производительности модели.
📊 Новые закономерности: появление новых признаков в данных, которые модель должна учитывать.
⚙️ Оптимизация производительности: когда становится доступно больше размеченных данных, повторное обучение помогает повысить точность и уменьшить переобучение.
Типы повторного обучения
🔁 Запланированное обучение: периодическое повторное обучение модели (например, ежемесячно).
⏱️ Обучение по триггеру: инициация повторного обучения при определенных условиях, например, при снижении точности модели или значительном изменении распределения данных.
♻️ Непрерывное обучение: постоянное обновление модели по мере появления новых данных (инкрементальное обучение).
👀 Подробнее о том, когда пора обновлять ML-модели читайте в статье
👍5❤2
🚀 Zasper: IDE для дата-сайентистов
Zasper — это IDE, разработанная с нуля для работы с высокой степенью параллелизма. Она обеспечивает минимальное потребление памяти, исключительную скорость и возможность обрабатывать множество одновременных подключений.
👍 Идеально подходит для запуска приложений в формате REPL, таких как Jupyter Notebook.
Github
Zasper — это IDE, разработанная с нуля для работы с высокой степенью параллелизма. Она обеспечивает минимальное потребление памяти, исключительную скорость и возможность обрабатывать множество одновременных подключений.
👍 Идеально подходит для запуска приложений в формате REPL, таких как Jupyter Notebook.
Github
🤔7👍1🔥1
Что такое DataDreamer
DataDreamer — это библиотека с открытым исходным кодом на Python для создания промптов, синтетических данных и рабочих процессов обучения.
✅ Простота: минимальный код для создания мощных рабочих процессов ИИ.
✅ Эффективность: библиотека оптимизирована для производительности с поддержкой нескольких графических процессоров.
✅ Исследовательский уровень: передовые методы генерации данных и обучения моделей.
Страница проекта
Github
DataDreamer — это библиотека с открытым исходным кодом на Python для создания промптов, синтетических данных и рабочих процессов обучения.
✅ Простота: минимальный код для создания мощных рабочих процессов ИИ.
✅ Эффективность: библиотека оптимизирована для производительности с поддержкой нескольких графических процессоров.
✅ Исследовательский уровень: передовые методы генерации данных и обучения моделей.
Страница проекта
Github
❤2🤩1
📊 Федеративное обучение
🔒 Конфиденциальность данных — одна из главных проблем внедрения ИИ в здравоохранение и банковскую сферу. Больницы и финансовые организации неохотно предоставляют данные для обучения моделей из-за строгих регуляций, а риски часто перевешивают возможные выгоды.
🚀 Федеративное обучение решает эту проблему. Вместо того чтобы передавать данные модели, модель отправляется к данным.
Как это работает
1️⃣ Модель предварительно обучается на сервере и отправляется на устройства пользователей.
2️⃣ Пользователи взаимодействуют с локальными моделями, которые дообучаются на месте.
3️⃣ Обновления локальных моделей отправляются обратно на сервер и усредняются.
4️⃣ Центральная модель синхронизируется с локальными версиями.
Google о федеративном обучении (классный комикс)
Блог TensorFlow
🔒 Конфиденциальность данных — одна из главных проблем внедрения ИИ в здравоохранение и банковскую сферу. Больницы и финансовые организации неохотно предоставляют данные для обучения моделей из-за строгих регуляций, а риски часто перевешивают возможные выгоды.
🚀 Федеративное обучение решает эту проблему. Вместо того чтобы передавать данные модели, модель отправляется к данным.
Как это работает
1️⃣ Модель предварительно обучается на сервере и отправляется на устройства пользователей.
2️⃣ Пользователи взаимодействуют с локальными моделями, которые дообучаются на месте.
3️⃣ Обновления локальных моделей отправляются обратно на сервер и усредняются.
4️⃣ Центральная модель синхронизируется с локальными версиями.
Google о федеративном обучении (классный комикс)
Блог TensorFlow
👍3🔥2❤1
⚡️ Успехи Китая и DeepSeek-R1 в гонке за лидерство в ИИ
Релиз R1 и новости об инвестициях в отрасль вызвали падение акций американских ИТ-гигантов. NVIDIA за сутки потеряла 14%, что составило $465 млрд — антирекорд.
🔥 Сегодня появилась новость о том, что Китай выделяет 1 триллион юаней на развитие ИИ.
А вот и все новости за последние дни:
👉 DeepSeek вытесняет ChatGPT с поста топового приложения App Store
👉DeepSeek вызвал истерику у Американских ИИ корпораций
👉DeepSeek — очередной квантовый скачок в развитии AI
👉Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере
👉 The Illustrated DeepSeek-R1 (отличный иллюстрированный DeepSeek-R1)
👉 Nvidia, OpenAI и Трамп прокомментировали DeepSeek
👀 Правда ли, что модель лучше и дешевле? Подробный обзор — завтра! Интересно? Пишите в комментариях «+».
Релиз R1 и новости об инвестициях в отрасль вызвали падение акций американских ИТ-гигантов. NVIDIA за сутки потеряла 14%, что составило $465 млрд — антирекорд.
🔥 Сегодня появилась новость о том, что Китай выделяет 1 триллион юаней на развитие ИИ.
А вот и все новости за последние дни:
👉 DeepSeek вытесняет ChatGPT с поста топового приложения App Store
👉DeepSeek вызвал истерику у Американских ИИ корпораций
👉DeepSeek — очередной квантовый скачок в развитии AI
👉Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере
👉 The Illustrated DeepSeek-R1 (отличный иллюстрированный DeepSeek-R1)
👉 Nvidia, OpenAI и Трамп прокомментировали DeepSeek
👀 Правда ли, что модель лучше и дешевле? Подробный обзор — завтра! Интересно? Пишите в комментариях «+».
👍8🔥3❤2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Что выведет код?
Anonymous Quiz
84%
[('a', 3), ('b', 3)]
10%
[('a', 2), ('b', 2)]
3%
[('a', 3), ('b', 2)]
3%
[('c', 3), ('a', 2)]
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.