tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
✖️ Умножение матриц
Без умножения матриц ИИ просто не смог бы существовать.
🤖 Нейронные сети: Фото, текст, звук — всё представляется в виде матриц. Их умножение позволяет ИИ понимать и распознавать образы.
👀 Компьютерное зрение: Фильтры сканируют изображения, выделяя контуры, формы, объекты — так ИИ "видит" мир.
📝 NLP (Обработка текста): В ChatGPT внимание распределяется с помощью матриц, определяя, какие слова важнее.
🎬 Рекомендации: Netflix анализирует, какие фильмы вы смотрите, умножая матрицы предпочтений. Именно так он предсказывает ваш следующий любимый сериал!
♟ Обучение с подкреплением: Как ИИ обыгрывает чемпионов по шахматам? Он умножает матрицы состояний и действий, просчитывая лучший ход.
Без умножения матриц ИИ просто не смог бы существовать.
🤖 Нейронные сети: Фото, текст, звук — всё представляется в виде матриц. Их умножение позволяет ИИ понимать и распознавать образы.
👀 Компьютерное зрение: Фильтры сканируют изображения, выделяя контуры, формы, объекты — так ИИ "видит" мир.
📝 NLP (Обработка текста): В ChatGPT внимание распределяется с помощью матриц, определяя, какие слова важнее.
🎬 Рекомендации: Netflix анализирует, какие фильмы вы смотрите, умножая матрицы предпочтений. Именно так он предсказывает ваш следующий любимый сериал!
♟ Обучение с подкреплением: Как ИИ обыгрывает чемпионов по шахматам? Он умножает матрицы состояний и действий, просчитывая лучший ход.
❤2🔥1
💡 Vaex — быстрая альтернатива Pandas для работы с большими данными
Vaex — это библиотека DataFrame, специально созданная для работы с огромными наборами данных (миллионы или даже миллиарды строк) без перегрузки памяти и падения производительности.
Импорт:
Фильтрация данных:
Вычисление среднего значения:
Группировка данных:
Ссылка на библиотеку: https://clc.to/f2i7yg
Vaex — это библиотека DataFrame, специально созданная для работы с огромными наборами данных (миллионы или даже миллиарды строк) без перегрузки памяти и падения производительности.
Импорт:
import vaex
df = vaex.open("big_data.csv")
print(df.shape)
Фильтрация данных:
filtered_df = df[df.age > 30]
Вычисление среднего значения:
mean_salary = df.salary.mean()
print(mean_salary)
Группировка данных:
df.groupby("job_title", agg=vaex.agg.mean("salary"))
Ссылка на библиотеку: https://clc.to/f2i7yg
🔥6❤3👍2🥱2
📌 YandexGPT 5: новое поколение языковых моделей от Яндекса
Компания внедрила методы обучения с подкреплением (DPO и PPO), а также собственную модификацию LogDPO, которая помогает избежать эффекта «разучивания» — ситуации, когда модель забывает уже выученные знания.
🔍 Разработчикам удалось на 25% снизить потребность в вычислительных ресурсах за счет библиотеки YaFSDP, которую Яндекс выложил в опенсорс в 2024 году. А в этом релизе компания впервые с 2022 года выложила в открытый доступ LLM — pretrain-версию YandexGPT 5 Lite. Она доступна без финального этапа обучения, этических фильтров и алаймента.
💡 Для обучения Pro-версии компания впервые применила метод гибридного обучения, добавив в стандартный цикл обучения базовые настройки открытой модели Qwen. Совмещение полного цикла обучения, который состоит из Pretrain, SFT, RL и весов из общедоступной модели позволило сократить затраты на обучение и увеличить его скорость до 20 раз.
🔗Читать статью
Компания внедрила методы обучения с подкреплением (DPO и PPO), а также собственную модификацию LogDPO, которая помогает избежать эффекта «разучивания» — ситуации, когда модель забывает уже выученные знания.
🔍 Разработчикам удалось на 25% снизить потребность в вычислительных ресурсах за счет библиотеки YaFSDP, которую Яндекс выложил в опенсорс в 2024 году. А в этом релизе компания впервые с 2022 года выложила в открытый доступ LLM — pretrain-версию YandexGPT 5 Lite. Она доступна без финального этапа обучения, этических фильтров и алаймента.
💡 Для обучения Pro-версии компания впервые применила метод гибридного обучения, добавив в стандартный цикл обучения базовые настройки открытой модели Qwen. Совмещение полного цикла обучения, который состоит из Pretrain, SFT, RL и весов из общедоступной модели позволило сократить затраты на обучение и увеличить его скорость до 20 раз.
🔗Читать статью
👍7
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Что выведет код?
Anonymous Quiz
8%
{'a': 1, 'b': 2}
65%
{'a': 1, 'b': 2, 'c': 3, 'd': 4}
15%
None
12%
Error
👍1👾1
🚀 Ускоряем t-SNE с помощью GPU
Одна из главных проблем t-SNE — его время выполнения квадратично зависит от числа точек данных.
➡️ Если у вас 20k+ точек, стандартная реализация sklearn становится очень медленной.
➡️ tSNE-CUDA — оптимизированная версия t-SNE на GPU, которая в разы ускоряет вычисления.
Одна из главных проблем t-SNE — его время выполнения квадратично зависит от числа точек данных.
➡️ Если у вас 20k+ точек, стандартная реализация sklearn становится очень медленной.
➡️ tSNE-CUDA — оптимизированная версия t-SNE на GPU, которая в разы ускоряет вычисления.
👍7❤2
This media is not supported in your browser
VIEW IN TELEGRAM
👍 Transformer vs. Mixture of Experts в LLM: понятное объяснение (с визуальными примерами)
❤1🔥1
Совет на 2025-й — будьте осторожнее с выбором работы.
IT-рынок штормит: массовые сокращения, заморозка найма, снижение зарплат. В такое время особенно важно отличать стоящие офферы от проходных.
Знакомо? Открываешь вакансию, а там: «Ищем middle-разработчика с опытом 10 лет, знанием 15 языков и готовностью работать за печеньки. Офис в Челябинске, релокация за ваш счет» 🤦♂️
Чтобы не тратить время на сотни сомнительных предложений, подпишитесь на IT Job Hub. Там мы отфильтровываем весь мусор и публикуем только избранные вакансии в стабильных компаниях:
— Зарплаты на уровне рынка, а не на уровне голодного студента
— Никаких «мы молодая и дружная семья» — только адекватные условия
— Проверенные работодатели, а не стартапы из сомнительных сфер
Вакансии удобно разбиты по тегам: #python #java #go #data #devops и по другим направлениям. Без воды и лишнего спама — только проверенные вакансии в знакомых компаниях.
Подписывайтесь, если не хотите упустить работу мечты → @proglib_jobs
IT-рынок штормит: массовые сокращения, заморозка найма, снижение зарплат. В такое время особенно важно отличать стоящие офферы от проходных.
Знакомо? Открываешь вакансию, а там: «Ищем middle-разработчика с опытом 10 лет, знанием 15 языков и готовностью работать за печеньки. Офис в Челябинске, релокация за ваш счет» 🤦♂️
Чтобы не тратить время на сотни сомнительных предложений, подпишитесь на IT Job Hub. Там мы отфильтровываем весь мусор и публикуем только избранные вакансии в стабильных компаниях:
— Зарплаты на уровне рынка, а не на уровне голодного студента
— Никаких «мы молодая и дружная семья» — только адекватные условия
— Проверенные работодатели, а не стартапы из сомнительных сфер
Вакансии удобно разбиты по тегам: #python #java #go #data #devops и по другим направлениям. Без воды и лишнего спама — только проверенные вакансии в знакомых компаниях.
Подписывайтесь, если не хотите упустить работу мечты → @proglib_jobs
😁1
🙌 Agents 101: Ваш первый ИИ-агент за 30 минут — это реально
Создание собственного агента может показаться непростой задачей: куча концепций, фреймворков и практик, которые нужно освоить.
Но не переживайте — мы нашли простой способ добавить агента в ваше приложение.
Подробный туториал уже ждет вас по ссылке: https://clc.to/P-6evQ
Создание собственного агента может показаться непростой задачей: куча концепций, фреймворков и практик, которые нужно освоить.
Но не переживайте — мы нашли простой способ добавить агента в ваше приложение.
Подробный туториал уже ждет вас по ссылке: https://clc.to/P-6evQ
❤3👍3
А вообще, какой моделью вы пользуетесь?
Anonymous Poll
50%
ChatGPT — классика жанра.
29%
DeepSeek — не верю слухам о безопасности.
3%
Gemini — я не такой как все.
18%
Экзотика: Qwen, Mistral , Grok — всегда что-то новое.
👍2
📍 Введение в программирование на CUDA для Python-разработчиков
Современные GPU содержат тысячи ядер, способных обрабатывать огромные объемы данных параллельно. В отличие от CPU, выполняющего несколько сложных задач последовательно, GPU идеально подходят для задач, требующих массовых вычислений, таких как машинное обучение, обработка изображений и симуляции.
В этой статье вы узнаете:
✅ Как устроены GPU и чем они отличаются от CPU
✅ Что такое CUDA и как она позволяет программировать GPU
✅ Как PyTorch, TensorFlow и JAX скрывают сложность работы с CUDA
✅ Простой пример работы с CUDA в Python
🔗 Читать статью: https://clc.to/DWE_Ag
Современные GPU содержат тысячи ядер, способных обрабатывать огромные объемы данных параллельно. В отличие от CPU, выполняющего несколько сложных задач последовательно, GPU идеально подходят для задач, требующих массовых вычислений, таких как машинное обучение, обработка изображений и симуляции.
В этой статье вы узнаете:
✅ Как устроены GPU и чем они отличаются от CPU
✅ Что такое CUDA и как она позволяет программировать GPU
✅ Как PyTorch, TensorFlow и JAX скрывают сложность работы с CUDA
✅ Простой пример работы с CUDA в Python
🔗 Читать статью: https://clc.to/DWE_Ag
🔥2❤1👍1
Forwarded from Библиотека питониста | Python, Django, Flask
💾 10 способов работы с большими файлами в Python, о которых ты не знал
Годнота для всех, кто работает с данными. Статья раскрывает разные подходы к обработке больших файлов — от простых итераторов до распределенных вычислений.
👍 Сохраняй себе, точно пригодится в работе: https://proglib.io/sh/VOcgo7w0W1
Годнота для всех, кто работает с данными. Статья раскрывает разные подходы к обработке больших файлов — от простых итераторов до распределенных вычислений.
👍 Сохраняй себе, точно пригодится в работе: https://proglib.io/sh/VOcgo7w0W1
❤1
😱 10 Python-библиотек, которые изменят ваш Data Science
Python для Data Science — это не только Pandas и NumPy! В нашей статье — 10 скрытых библиотек, которые ускорят работу с большими данными, автоматизируют ML и улучшат визуализацию.
✅ Быстрые альтернативы Pandas (Dask, Modin, Polars, Datatable)
✅ AutoML для моделей (PyCaret, H2O.ai)
✅ Упрощение трансформаций (Fugue)
✅ Умная визуализация (Sweetviz, Lux)
Ссылка на сборник библиотек: https://clc.to/ibe2ew
Python для Data Science — это не только Pandas и NumPy! В нашей статье — 10 скрытых библиотек, которые ускорят работу с большими данными, автоматизируют ML и улучшат визуализацию.
✅ Быстрые альтернативы Pandas (Dask, Modin, Polars, Datatable)
✅ AutoML для моделей (PyCaret, H2O.ai)
✅ Упрощение трансформаций (Fugue)
✅ Умная визуализация (Sweetviz, Lux)
Ссылка на сборник библиотек: https://clc.to/ibe2ew
❤1
Главные ИИ-новости февраля
🦾 Hugging Face запустила Spaces — гигантский каталог, где собрано почти 400,000 нейросетей.
🎙 Джефф Дин и Ноам Шазир (Google) дали двухчасовое интервью о будущем ИИ.
🚀 Grok-3 с улучшенным ризонингом.
🤖 Яндекс выпустил YandexGPT.
📸 YOLO v12 — новая версия культового детектора объектов.
🧠 OpenAI выпустили GPT-4.5 — еще умнее и креативнее.
📚 Анонс бесплатного курса по генеративному ИИ от Kaggle и Google.
👨💻 Google представил AI co-scientist и Gemini Code Assist — новый ИИ-помощник для кодинга.
ИИ не стоит на месте — следите за обновлениями!
🦾 Hugging Face запустила Spaces — гигантский каталог, где собрано почти 400,000 нейросетей.
🎙 Джефф Дин и Ноам Шазир (Google) дали двухчасовое интервью о будущем ИИ.
🚀 Grok-3 с улучшенным ризонингом.
🤖 Яндекс выпустил YandexGPT.
📸 YOLO v12 — новая версия культового детектора объектов.
🧠 OpenAI выпустили GPT-4.5 — еще умнее и креативнее.
📚 Анонс бесплатного курса по генеративному ИИ от Kaggle и Google.
👨💻 Google представил AI co-scientist и Gemini Code Assist — новый ИИ-помощник для кодинга.
ИИ не стоит на месте — следите за обновлениями!
❤2👍1🔥1
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍1
🎬 Предсказываем ваш следующий любимый фильм с NetworkX, Jaccard Similarity и cuGraph
В мире, переполненном данными, делать осознанный выбор становится сложнее. К счастью, рекомендательные системы помогают упростить этот процесс, используя мощь графов.
Почему графы?
Они отлично моделируют связи между объектами, а NetworkX — популярный инструмент для графового анализа в Python. Он удобен, богат алгоритмами и имеет активное сообщество.
❌ Но есть проблема — NetworkX не справляется с большими масштабами данных, которые нужны для рекомендаций.
Можно ли создать эффективную рекомендательную систему на графах в несколько строк кода, сочетая удобство и высокую производительность?
💡 Ответ ищите в статье: https://clc.to/hE8VPA
В мире, переполненном данными, делать осознанный выбор становится сложнее. К счастью, рекомендательные системы помогают упростить этот процесс, используя мощь графов.
Почему графы?
Они отлично моделируют связи между объектами, а NetworkX — популярный инструмент для графового анализа в Python. Он удобен, богат алгоритмами и имеет активное сообщество.
❌ Но есть проблема — NetworkX не справляется с большими масштабами данных, которые нужны для рекомендаций.
Можно ли создать эффективную рекомендательную систему на графах в несколько строк кода, сочетая удобство и высокую производительность?
💡 Ответ ищите в статье: https://clc.to/hE8VPA
❤3👍3
🤔 Основы математики в Machine Learning / Deep Learning
🗓 6 марта приглашаем вас на прямой эфир, где мы подробно разберем ряд Тейлора, собственные векторы и другие ключевые понятия в ML.
(ссылка)
🌟 Спикер: *Мария Горденко* – Старший преподаватель ФКН НИУ ВШЭ, НИТУ МИСИС, аспирант департамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ, а также преподаватель на курсе Алгоритмы и структуры данных в proglib academy.
Место работы: Инженер-программист, ведущий эксперт НИУ ВШЭ, цифровой ассистент и цифровой консультант НИУ ВШЭ.
😮 На вебинаре вы узнаете:
🔵 Теорию вероятностей: обсудим случайные величины, вероятность, математическое ожидание и дисперсию.
🔵 Линейную алгебру: изучим векторы, матрицы, собственные векторы и собственные значения.
🔵 Математический анализ: разберем производные и разложение функций в ряд Тейлора.
🔵 Практику: применим полученные знания на реальных кейсах из области Machine Learning и Deep Learning.
🎯 Почему это важно?
Понимание математических основ помогает глубже разобраться в работающих под капотом алгоритмах ML/DL и эффективно применять их на практике.
👉 Присоединяйтесь к нам и совершенствуйте свои навыки в машинном обучении!
📌 Регистрация по ссылке: https://proglib.io/w/6693dce7
🗓 6 марта приглашаем вас на прямой эфир, где мы подробно разберем ряд Тейлора, собственные векторы и другие ключевые понятия в ML.
(ссылка)
🌟 Спикер: *Мария Горденко* – Старший преподаватель ФКН НИУ ВШЭ, НИТУ МИСИС, аспирант департамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ, а также преподаватель на курсе Алгоритмы и структуры данных в proglib academy.
Место работы: Инженер-программист, ведущий эксперт НИУ ВШЭ, цифровой ассистент и цифровой консультант НИУ ВШЭ.
😮 На вебинаре вы узнаете:
🔵 Теорию вероятностей: обсудим случайные величины, вероятность, математическое ожидание и дисперсию.
🔵 Линейную алгебру: изучим векторы, матрицы, собственные векторы и собственные значения.
🔵 Математический анализ: разберем производные и разложение функций в ряд Тейлора.
🔵 Практику: применим полученные знания на реальных кейсах из области Machine Learning и Deep Learning.
🎯 Почему это важно?
Понимание математических основ помогает глубже разобраться в работающих под капотом алгоритмах ML/DL и эффективно применять их на практике.
👉 Присоединяйтесь к нам и совершенствуйте свои навыки в машинном обучении!
📌 Регистрация по ссылке: https://proglib.io/w/6693dce7
👍1
❗ Гессиан больше не нужен! Упрощаем оценку неопределённостей в ML.
Оценка неопределённости в нейросетях — важная, но вычислительно затратная задача. В недавнем исследовании, показано, что традиционные методы на основе Гессиана не только требовательны к ресурсам, но и порой неточны.
Что предложено:
✅ Заменяем Гессиан на единичную матрицу в аппроксимации Лапласа
✅ Улучшаем определение выбросов в данных
✅ Достигаем точности на уровне небайесовских методов
Как это работает? Читайте в статье: https://clc.to/yxJ1sQ
Оценка неопределённости в нейросетях — важная, но вычислительно затратная задача. В недавнем исследовании, показано, что традиционные методы на основе Гессиана не только требовательны к ресурсам, но и порой неточны.
Что предложено:
✅ Заменяем Гессиан на единичную матрицу в аппроксимации Лапласа
✅ Улучшаем определение выбросов в данных
✅ Достигаем точности на уровне небайесовских методов
Как это работает? Читайте в статье: https://clc.to/yxJ1sQ
👍3❤2🤔1