tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
🔥 GTC 2025: главное событие в мире ИИ и ускоренных вычислений
С 17 по 21 марта 2025 года ведущие эксперты из PyTorch Foundation, NVIDIA, Google Cloud, Meta, Microsoft и других компаний обсудят будущее AI.
Ключевые темы:
🔹 Open-source AI: PyTorch, vLLM, Ray, NeMo
🔹 Оптимизация PyTorch: CUDA, Thunder, FlexAttention
🔹 Ускорение обучения и инференса нейросетей
🔹 Графовые нейросети для финансового анализа
🔹 Улучшение RAG с fine-tuning embedding-моделей
📍 Присоединяйтесь онлайн бесплатно: https://clc.to/xsz66A
Библиотека дата-сайентиста #свежак
С 17 по 21 марта 2025 года ведущие эксперты из PyTorch Foundation, NVIDIA, Google Cloud, Meta, Microsoft и других компаний обсудят будущее AI.
Ключевые темы:
🔹 Open-source AI: PyTorch, vLLM, Ray, NeMo
🔹 Оптимизация PyTorch: CUDA, Thunder, FlexAttention
🔹 Ускорение обучения и инференса нейросетей
🔹 Графовые нейросети для финансового анализа
🔹 Улучшение RAG с fine-tuning embedding-моделей
📍 Присоединяйтесь онлайн бесплатно: https://clc.to/xsz66A
Библиотека дата-сайентиста #свежак
👍4❤1🔥1
❗️Вакансии «Библиотеки программиста» — ждем вас в команде!
Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
Подробности тут
Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴
Ждем ваших откликов 👾
Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
Подробности тут
Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴
Ждем ваших откликов 👾
job.proglib.io
Вакансии в медиа «Библиотека программиста»
Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты
📌 Шпаргалка: как выбрать AI-модель в 2025 году
🔹 ChatGPT — лучший для диалогов, генерации текста и объяснений.
🔹 Claude — глубоко анализирует длинные тексты.
🔹 Perplexity — идеально подходит для поиска и структурирования данных.
🔹 Gemini — интеграция с Google для актуальных сведений.
🔹 Grok — фокус на аналитике и технических задачах.
Полное сравнение моделей: https://clc.to/u6RuRA
Библиотека дата-сайентиста #буст
🔹 ChatGPT — лучший для диалогов, генерации текста и объяснений.
🔹 Claude — глубоко анализирует длинные тексты.
🔹 Perplexity — идеально подходит для поиска и структурирования данных.
🔹 Gemini — интеграция с Google для актуальных сведений.
🔹 Grok — фокус на аналитике и технических задачах.
Полное сравнение моделей: https://clc.to/u6RuRA
Библиотека дата-сайентиста #буст
❤4👍3🌚2
🔧 Инструмент дня: cuML для машинного обучения на GPU
cuML — это библиотека для ML-алгоритмов на GPU с API, совместимым с scikit-learn.
Преимущества:
🔹 Ускоряет вычисления в 10–50 раз по сравнению с CPU.
🔹 Поддерживает популярные табличные ML-задачи.
🔹 Прост в использовании — не требует знаний CUDA.
Пример кластеризации DBSCAN на GPU:
Вывод:
Подробнее о cuML: https://clc.to/oBhy1Q
Библиотека дата-сайентиста #буст
cuML — это библиотека для ML-алгоритмов на GPU с API, совместимым с scikit-learn.
Преимущества:
🔹 Ускоряет вычисления в 10–50 раз по сравнению с CPU.
🔹 Поддерживает популярные табличные ML-задачи.
🔹 Прост в использовании — не требует знаний CUDA.
Пример кластеризации DBSCAN на GPU:
import cudf
from cuml.cluster import DBSCAN
# Создаем и заполняем GPU DataFrame
gdf_float = cudf.DataFrame()
gdf_float['0'] = [1.0, 2.0, 5.0]
gdf_float['1'] = [4.0, 2.0, 1.0]
gdf_float['2'] = [4.0, 2.0, 1.0]
# Настраиваем и запускаем кластеризацию
dbscan_float = DBSCAN(eps=1.0, min_samples=1)
dbscan_float.fit(gdf_float)
print(dbscan_float.labels_)
Вывод:
0 0
1 1
2 2
dtype: int32
Подробнее о cuML: https://clc.to/oBhy1Q
Библиотека дата-сайентиста #буст
👍7❤2
Media is too big
VIEW IN TELEGRAM
🤖 NVIDIA представила Groot N1 — AI-модель для человекоподобных роботов
На GTC 2025 в Сан-Хосе NVIDIA анонсировала Groot N1 — универсальную AI-модель для роботов. Это развитие прошлогоднего Project Groot, но с более широким спектром применения.
🔹 Двойная архитектура: «быстрое» и «медленное» мышление, как у человека.
🔹 Анализ, планирование и выполнение сложных действий.
🔹 Открытый исходный код, симуляционные фреймворки и генерация синтетических данных.
💬 Дженсен Хуанг: «Эра универсальных роботов уже здесь!»
Что думаете? Делитесь в комментариях!👇
Библиотека дата-сайентиста #свежак
На GTC 2025 в Сан-Хосе NVIDIA анонсировала Groot N1 — универсальную AI-модель для роботов. Это развитие прошлогоднего Project Groot, но с более широким спектром применения.
🔹 Двойная архитектура: «быстрое» и «медленное» мышление, как у человека.
🔹 Анализ, планирование и выполнение сложных действий.
🔹 Открытый исходный код, симуляционные фреймворки и генерация синтетических данных.
💬 Дженсен Хуанг: «Эра универсальных роботов уже здесь!»
Что думаете? Делитесь в комментариях!
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2
В нашем чате работает бот Shieldy — он защищает от спама, запрашивая у новых участников решение простой капчи.
⚠️ Проблема, с которой сталкиваются многие: вы нажимаете под постом «Прокомментировать», пишете что-то, а потом получаете бан и не можете писать комментарии.
❓Почему так: Shieldy отправляет капчу в сам чат, а не в комментарии под конкретный пост. Из-за этого капчу можно не увидеть, не отправить ответ на нее, и бот автоматически заблокирует вас.
— Зайдите в описание канала с телефона и нажмите кнопку Discuss / Чат
— Нажмите Join / Присоединиться
— Сразу обратите внимание на сообщение от бота Shieldy
— Решите простой пример и отправьте ответ в чат
После этого бот отправит приветственное сообщение и вы сможете оставлять комментарии. Эту проверку нужно пройти только один раз при вступлении в чат.
❗️ Если вас все-таки забанили
— Это временная блокировка на несколько минут
— Подождите и попробуйте зайти позже, бот снова отправит вам капчу
Админы канала никак не могут ускорить процесс, бот автоматически снимает с вас блокировку через пару минут. Мы понимаем, что эта система неидеальна, и ищем более удобное решение.
👾 Спасибо, что активно участвуете в обсуждении наших постов!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2😁1
Apache Arrow — это колонный формат данных, предназначенный для эффективной обработки и обмена данными между различными инструментами. Он поддерживает быстрое чтение и запись данных, что делает его идеальным для работы с большими объемами информации.
Для начала работы с Arrow необходимо установить библиотеки
pyarrow
и pandas
:pip install pyarrow pandas
Основные операции:
1. Создание таблицы
Создадим таблицу с двумя колонками:
import pyarrow as pa
teams = pa.array(['Barcelona', 'Real Madrid', 'Rayo Vallecano', 'Athletic Club', 'Real Betis'], type=pa.string())
goals = pa.array([30, 23, 9, 24, 12], type=pa.int8())
team_goals_table = pa.table([teams, goals], names=['Team', 'Goals'])
Преобразуем её в Pandas DataFrame:
df = team_goals_table.to_pandas()
2. Чтение и запись Parquet
Arrow поддерживает работу с форматом Parquet, который оптимизирован по памяти:
import pyarrow.parquet as pq
# Запись в Parquet
pq.write_table(team_goals_table, 'data.parquet')
# Чтение из Parquet
table = pq.read_table('data.parquet')
3. Операции с данными
Сравним два массива:
import pyarrow.compute as pc
a = pa.array([1, 2, 3, 4, 5])
b = pa.array([1, 3, 3, 4, 5])
pc.equal(a, b)
Суммируем элементы массива:
pc.sum(a)
4. Группировка и агрегация
Группируем данные по команде и считаем сумму голов:
table = pa.table({'Team': ['Barcelona', 'Real Madrid'], 'Goals': [30, 23]})
table.group_by('Team').aggregate([('Goals', 'sum')])
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4😁1
Используйте этот промпт для построения графиков с помощью Matplotlib.
🔹 Промпт:
I want you to act as a data scientist coding in Python. Given a dataframe {dataframe name} containing the columns {column names}, use Matplotlib to plot a {chart type} that shows the relationship between {variables}. Additionally, annotate the plot with the following details: {annotation requirements}. Format the plot by adjusting {specific formatting preferences}. Finally, change the plot's theme to {theme} to match the visual style of {theme description}.
Результат:
🔹 Качественные и профессиональные визуализации данных.
🔹 Подробное оформление и аннотации на графиках.
🔹 Удобное и понятное оформление графиков с использованием популярных тем.
✔️ Пример:
Исходный датафрейм с данными о возрасте, доходе и уровне образования:
import pandas as pd
data = {
'age': [25, 30, 35, 40, 45],
'income': [50000, 60000, 70000, 80000, 90000],
'education_level': ['Bachelors', 'Masters', 'PhD', 'Bachelors', 'Masters']
}
df = pd.DataFrame(data)
💬 Пример использования промпта:
I want you to act as a data scientist coding in Python. Given a dataframe df containing the columns ['age', 'income', 'education_level'], use Matplotlib to plot a scatter plot that shows the relationship between age and income. Additionally, annotate the plot with the following details: highlight the highest and lowest income values. Format the plot by adjusting the title, axis labels, and grid lines. Finally, change the plot's theme to seaborn-darkgrid to match the visual style of a clean and modern plot with dark gridlines.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
🐛 Истории подписчиков: вспоминаем наши ошибки в Data Science
Все мы когда-то начинали, и порой самые банальные ошибки могут стать источником самых больших уроков. Давайте вспомним моменты, когда наши модели показывали «идеальные» результаты, но это оказалось далеко не так.
🫠 Вот история админа из студенчества:
Теперь ваша очередь! Поделитесь своими первыми ошибками и уроками, которые вы из них извлекли.🤓
Библиотека дата-сайентиста #междусобойчик
Все мы когда-то начинали, и порой самые банальные ошибки могут стать источником самых больших уроков. Давайте вспомним моменты, когда наши модели показывали «идеальные» результаты, но это оказалось далеко не так.
Когда я только вкатился в Data Science, мне дали задачу построить модель для предсказания цен на жильё. Я такой весь уверенный, что вот-вот покорю этот мир: минимальная ошибка, красивые графики, да я просто гений!😎 Но чем дальше я углублялся, тем страннее становились предсказания. Цены на квартиры с метражом в 200 квадратных метров были предсказаны ниже, чем у квартир в 30 м². Оказалось, что в данных были строки вместо чисел в одном из признаков — вместо «100» стояло «сто». Ну конечно, модель же могла понять, что это такое!🤦♂️
Этот баг научил меня важному уроку: всегда проверяй данные. Особенно если твоя модель «непонятно как» даёт отличные результаты! С тех пор я никогда не пренебрегаю даже самой мелкой проверкой.
Теперь ваша очередь! Поделитесь своими первыми ошибками и уроками, которые вы из них извлекли.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13😁4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
⏰ STUMPY: умный анализ временных рядов
STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.
С его помощью можно решать задачи:
✔️ Поиск повторяющихся паттернов.
✔️ Обнаружение аномалий.
✔️ Выделение ключевых подотрезков (shapelets).
✔️ Семантическая сегментация.
✔️ Анализ потоковых данных.
✔️ Быстрое приближённое вычисление матричных профилей.
✔️ Построение временных цепочек.
✔️ Краткое представление длинных временных рядов.
👉 Подробнее — в документации.
Библиотека дата-сайентиста #буст
STUMPY — это мощная и масштабируемая библиотека Python для работы с временными рядами. Она эффективно вычисляет матричный профиль, который помогает находить ближайшие соседи для каждого подотрезка временного ряда.
С его помощью можно решать задачи:
✔️ Поиск повторяющихся паттернов.
✔️ Обнаружение аномалий.
✔️ Выделение ключевых подотрезков (shapelets).
✔️ Семантическая сегментация.
✔️ Анализ потоковых данных.
✔️ Быстрое приближённое вычисление матричных профилей.
✔️ Построение временных цепочек.
✔️ Краткое представление длинных временных рядов.
👉 Подробнее — в документации.
Библиотека дата-сайентиста #буст
👍11❤2🔥1
🚀 SGLang теперь в PyTorch: быстрое и гибкое развертывание LLM
SGLang — это мощный движок для обслуживания больших языковых моделей (LLM) и мультимодальных моделей. Он ускоряет взаимодействие с моделями, обеспечивая контроль за их работой. Ключевые возможности SGLang:
▪️ Высокопроизводительный бэкенд:
• RadixAttention для кеширования префиксов.
• Нулевая задержка CPU-планировщика.
• Непрерывная пакетная обработка.
• Квантование (FP8/INT4/AWQ/GPTQ).
▪️ Гибкий фронтенд:
• Интуитивный язык для программирования LLM-приложений.
• Цепочечные вызовы генерации.
• Расширенные техники промптинга и управления потоком.
• Поддержка мультимодального ввода.
▪️ Широкая поддержка моделей:
• Llama, Gemma, Mistral, Qwen, DeepSeek, LLaVA.
• Встраиваемые модели (e5-mistral, gte, mcdse).
• Reward-модели (Skywork).
▪️ Активное сообщество
🔗 Подробнее об экосистеме PyTorch и SGLang: https://clc.to/FfEGWQ
Библиотека дата-сайентиста #свежак
SGLang — это мощный движок для обслуживания больших языковых моделей (LLM) и мультимодальных моделей. Он ускоряет взаимодействие с моделями, обеспечивая контроль за их работой. Ключевые возможности SGLang:
▪️ Высокопроизводительный бэкенд:
• RadixAttention для кеширования префиксов.
• Нулевая задержка CPU-планировщика.
• Непрерывная пакетная обработка.
• Квантование (FP8/INT4/AWQ/GPTQ).
▪️ Гибкий фронтенд:
• Интуитивный язык для программирования LLM-приложений.
• Цепочечные вызовы генерации.
• Расширенные техники промптинга и управления потоком.
• Поддержка мультимодального ввода.
▪️ Широкая поддержка моделей:
• Llama, Gemma, Mistral, Qwen, DeepSeek, LLaVA.
• Встраиваемые модели (e5-mistral, gte, mcdse).
• Reward-модели (Skywork).
▪️ Активное сообщество
🔗 Подробнее об экосистеме PyTorch и SGLang: https://clc.to/FfEGWQ
Библиотека дата-сайентиста #свежак
❤4👍1
🤖 IT-выживание 2025: как не вылететь с рынка труда в эпоху LLM
В 2025-м айтишникам приходится несладко: старые скиллы уже не в цене, LLM наступают на пятки, а работодатели хотят все и сразу.
👍 Делимся инсайдами, как выжить в новой реальности и не потерять работу в эпоху тотальной оптимизации.
👉 Ссылка на статью: https://proglib.io/sh/zEruLHxYno
Библиотека дата-сайентиста
В 2025-м айтишникам приходится несладко: старые скиллы уже не в цене, LLM наступают на пятки, а работодатели хотят все и сразу.
👍 Делимся инсайдами, как выжить в новой реальности и не потерять работу в эпоху тотальной оптимизации.
👉 Ссылка на статью: https://proglib.io/sh/zEruLHxYno
Библиотека дата-сайентиста
❤3😁3👾2
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
❤2
🔥 Новости AI
🚀 Сеточки:
— Mistral Small 3.1 — быстрее Gemma 3 и GPT-4o.
— YandexART 2.5 Pro — новая генеративная модель.
— Google открыла исходники AlexNet — нейросеть стала музейным экспонатом.
🔬 Исследования:
— DyT от Yann LeCun — замена нормализации с низкими вычислительными затратами.
— METR — новый метод оценки AI в долгосрочных задачах.
🎙 Выступления:
— NVIDIA GTC 2025 — главные анонсы от CEO Jensen Huang.
— Yann LeCun — о будущем AI и новых архитектурах.
🖥 Для разработчиков:
— Google AI для кода — превью и AI-анализ.
— MongoDB GenAI Showcase — 100+ примеров RAG и AI-агентов.
— Notebook LM — интерактивные майнд-карты от Google.
📚 Что почитать:
— Пишем свой Transformer.
— Разметка данных с LLM.
— Семантическая сегментация (U-Net, LinkNet, PSPNet).
— Кастомные loss-функции.
⚡️ Технологии:
— NVIDIA представила DGX Spark и DGX Station — персональные AI-суперкомпьютеры.
🔒 Кибербезопасность:
— Andrej Karpathy о цифровой гигиене — защита конфиденциальности.
Библиотека дата-сайентиста #свежак
🚀 Сеточки:
— Mistral Small 3.1 — быстрее Gemma 3 и GPT-4o.
— YandexART 2.5 Pro — новая генеративная модель.
— Google открыла исходники AlexNet — нейросеть стала музейным экспонатом.
🔬 Исследования:
— DyT от Yann LeCun — замена нормализации с низкими вычислительными затратами.
— METR — новый метод оценки AI в долгосрочных задачах.
🎙 Выступления:
— NVIDIA GTC 2025 — главные анонсы от CEO Jensen Huang.
— Yann LeCun — о будущем AI и новых архитектурах.
🖥 Для разработчиков:
— Google AI для кода — превью и AI-анализ.
— MongoDB GenAI Showcase — 100+ примеров RAG и AI-агентов.
— Notebook LM — интерактивные майнд-карты от Google.
📚 Что почитать:
— Пишем свой Transformer.
— Разметка данных с LLM.
— Семантическая сегментация (U-Net, LinkNet, PSPNet).
— Кастомные loss-функции.
⚡️ Технологии:
— NVIDIA представила DGX Spark и DGX Station — персональные AI-суперкомпьютеры.
🔒 Кибербезопасность:
— Andrej Karpathy о цифровой гигиене — защита конфиденциальности.
Библиотека дата-сайентиста #свежак
👍5❤🔥1❤1
Forwarded from Библиотека собеса по Data Science | вопросы с собеседований
Что такое токен в NLP и какие существуют методы токенизации
🔹 Токен —это наименьшая единица текста, которая может быть словом, подсловом (например, «un-», «friend») или знаком препинания.
🔹 Популярные методы токенизации:
1. Токенизация на уровне слов — делит текст на отдельные слова.
2. Токенизация на уровне подслов — разбивает слова на более мелкие единицы (например, BPE, WordPiece).
3. Токенизация на уровне символов — превращает текст в последовательность отдельных символов.
⚡ Выбор метода зависит от задачи:для морфологически сложных языков часто используют подсловную токенизацию, а для обработки именованных сущностей — посимвольную.
Библиотека собеса по Data Science
🔹 Токен —
🔹 Популярные методы токенизации:
⚡ Выбор метода зависит от задачи:
Библиотека собеса по Data Science
👍4❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Что выведет код?
Anonymous Quiz
15%
[[0, 1, 2, 3, 4, 5, 6, 7, 8]]
26%
[0, 1, 2, 3, 4, 5, 6, 7, 8]
29%
[0, 3, 6, 1, 4, 7, 2, 5, 8]
30%
None of the above
Кем является разработчик в 2025 году? Свежий анализ IT-сферы: зарплаты, востребованные технологии, специализации и демография специалистов.
Библиотека дата-сайентиста #Свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2😁1