Telegram Web
Forwarded from Data1984
While US markets are panicking you can try to play with DeepSeek by installing it locally or using Cursor, it is already available there.
https://dev.to/lunaticprogrammer/using-deepseek-r1-in-visual-studio-code-for-free-2279
Открытые и бесплатные лекции по аналитике и Data Science. Расписание в карточках 👆

Подойдёт и тем, кто пока далек от IT, но хочет погрузиться в тему.

🗓 2 февраля в 10:00
📍 Покровский бульвар, 11 (вход 4), Центр культур НИУ ВШЭ

Детали и регистрация до 29 января: https://cs.hse.ru/dpo/datascienceschool/winter2025/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ML Career pinned «Кто нибудь проходил? Как вам курс? https://www.tgoop.com/mlzoomcamp/180 #MLZoomcamp»
Зимняя школа по аналитике и Data Science «IT-сеанс: погружение в мир данных»

📍 Москва
вс, 02 февраль 2025, 10:00 (+0300)


Центр непрерывного образования приглашает на зимнюю школу «IT-сеанс: погружение в мир данных». Вас ждут лекции и мастер-классы от спикеров из таких компаний, как: Яндекс, Т-Банк, Купер, Okko, Авито, Билайн, Банк России, Эйч.

Приглашаем всех, кто хочет разобраться:
зачем переходить в IT
как построить карьеру в аналитике и Data Science
-как Data Science применяется в разных индустриях

Помимо выступлений спикеров, вы сможете:
предоставить свое резюме, получить обратную связь и советы по улучшению
пообщаться с экспертами и понять, как устроены прикладные задачи в индустрии
выиграть памятные призы за участие в дополнительных активностях

Участие бесплатное для всех желающих, требуется регистрация.



Подписывайтесь на новые мероприятия в боте @NetworklyBot
Обзор ключевых направлений ML
#w06 вт 04.02 в 18:00 НИУ ВШЭ
https://cs.hse.ru/sber/ai_recsys_lectures/polls/1008383094.html

Хотите узнать, как ML меняет подход к взаимодействию с человеком? В нашей лекции мы рассмотрим методы пресонализации предложений во всех ключевых взаимодействиях с человеком.
Мы покажем, как возможно увеличивать покрытие персонализации, сокращая при этом ненужные коммуникации. Это отличная возможность погрузиться в ключевые ML-направления.

Расскажем о направлениях работы департамента данных и рекомендательных систем, а также поможем сориентироваться в выборе карьерного трека в Сбере.

Место проведения: г. Москва, ул. Покровский б-р д.11, R304
🔥 Как стать ML-щиком?

За неделю это, конечно, не реально, но есть отличный способ прокачаться - бесплатный ML Bootcamp от OpenBio. Начиная с сегодняшнего (‼️) дня по 9 февраля канал проекта «Машинное обучение в биологии и биомедицине» превратится в тренировочную площадку. Готовьтесь к тому, что ваши умы будут кипеть, а клавиатуры — дымиться! 😶‍🌫️

😱 Каждый день будут публиковаться фрагменты материалов из курса. Один день — один модуль. Это отличная возможность изучить часть платного курса бесплатно!

Кроме того, участников ML Bootcamp ждут подарки:
🔥 карьерный вебинар «Прожарка вакансий» с разбором актуальных предложений в биотехе от экспертов Натальи Мнафки и Даниила Игумнова;
🔥 скидка до 30% на курс «Машинное обучение в биологии и биомедицине».

Если не хотите ждать, то вот вам скидка 15% по промокоду DATA уже сейчас.

🎚️ Скорее подписывайтесь на канал курса, приглашайте друзей и включайте уведомления! Ведь самое горячее событие этой зимы — ML Bootcamp от OpenBio — уже стартовал!

https://www.tgoop.com/datafeeling/1212
Please open Telegram to view this post
VIEW IN TELEGRAM
The Hugging Face AI Agents Course 🤗

На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.


https://bit.ly/hf-learn-agents:
The Hugging Face AI Agents Course 🤗
Register now for the Hugging Face Agents Course 🤗!

Next Start Date: February 10th 2025!
In this free course, you will:
📖 Learn the basics of Agents from scratch.
🕵️ Build your own Agents using the latest libraries and tools.
🎓 Earn a certificate of completion to showcase your achievement.

Checkout the syllabus, prerequisites, and details on this Hugging Face Hub Organization 🏡 https://huggingface.co/agents-course
Join our community on Discord to connect with other learners and our team 👉🏻 https://discord.gg/UrrTSsSyjb


#ИИСаммари (as is)):
Курс агентов по уходу за лицом в обнимку

Запуск курса "Агенты по уходу за лицом в обнимку"
• Курс поможет создать и внедрить агентов искусственного интеллектаLink
• Рассчитан на 6 недель, проходящих раз в две неделиLink
• Начало курса: 10 февраля 2025 годаLink

Программа курса
• Адаптационный блок: предоставление инструментов и платформLink
• Основные принципы работы агента: инструменты, мысли, действия, наблюдения, LLM, сообщения, токены, шаблон чата, универсальные функции pythonLink
• Фреймворки: smolagents, LangGraph, LLamaIndexLink
• Варианты использования: создание примеров в реальной жизниLink
• Окончательное задание: создание агента по выбранному критерию, участие в таблице студенческих лидеровLink

Дополнительные бонусы
• В ближайшие недели будут выпущены дополнительные блокиLink

График
• Начало 10 февраля 2025 годаLink
• 4 тематических блока, новый блок каждые 2 неделиLink
• Блоки содержат живое занятие, письменные материалы и интерактивную викторинуLink

Предпосылки
• Программирование на PythonLink
• Запрос LLMLink
• Аккаунт Hugging Face (бесплатный)Link

Сообщество
• Присоединяйтесь к сообществу "Обнимающее лицо Диссонирует" для изучения курса, внесения вклада или обсужденияLink

Источник: https://www.tgoop.com/dataeng/624
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📆 Что обсуждалось вчера 12.02.2025

🐳 Использование Docker в разработке (2 сообщений)

Интересные ссылки:

🔗 Мастер-класс по Docker, который объясняет его полезность и применение в разработке.

#dailysummary | ⭐️ поддержать команду
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые есть в 2023, которых нет в 2021 и наоборот, поэтому я попробовал их объединить.

Сегодня начнем (поздний анонс немного), но там типа интро всего лишь, думаю не очень критично

Информация тут:
https://www.tgoop.com/sberlogawithgraphs/26044
Forwarded from AI Safety. Основы
📣 Open-call: Курс по основам AI Safety

ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными

Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI

Этим курсом мы готовим людей себе в команды и в команды наших друзей из сейфти лаб. Поэтому курс бесплатный. По этой же причине делаем серьезный отбор кандидатов

Для кого?
Будущие рисечеры: ml'щики, физики, математики, программисты
Будущие фаундреры интересующиеся AI Safety

Программа из двух треков:
Учебный (4 недели): Знакомство с материалами в фасилитируемых группах
Проектный (7 недель): Работа с ментором нацеленная на публикацию

Экспертиза менторов покрывает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability

Сертификат и карьерная консультация по окончанию курса
Менторское сопровождение лучших проектов до публикации после курса

Детали:
Онлайн или в Москве в центре Моноид
Регистрация открыта до 21 февраля
Даты: 2 марта – 20 апреля
Нагрузка: 10-15 часов в неделю

По вопросам пишите @anton_zheltoukhov

➡️ Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Complete AI
Что не так с LLM?

🔵Модели игнорируют команды
🔵Даже лучшие LLM фантазируют
🔵RAG не работает с первого раза
🔵API дороже, чем кажется
🔵Инференс без оптимизации — дорогое удовольствие

На лекции 20 февраля в 18:00 на лекции DeepSchool спикеры разберут эти и другие проблемы LLM, и покажут, как их решать на примере реальной задачи ✔️

Спикеры:
🙂 Илья Димов — Senior NLP-инженер
🙂 Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer, KoronaPay

Регистрируйтесь на лекцию и получите список полезных инструментов и библиотек для работы с LLM, а также скидки на обучение.

Поделитесь в комментариях мнением: какая главная проблема LLM сегодня?
Please open Telegram to view this post
VIEW IN TELEGRAM
Эти пет проекты должен сделать каждый ML специалист

Устроиться можно и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна. А если хотите обогатить свое портфолио совсем мощными пет проектами, то советую наш курс МЛ хард.

1. Кредитный скоринг
Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.

2. Наивный Байесовский классификатор (НБК)
Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:
1. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
2. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
3. Вычисляем прогнозируемый результат с помощью условных вероятностей.
НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.

3. MLOps
Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.

4. Ранжирование и матчинг
Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.

5. Рекомендашки
Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
Также стоит попробовать обучение с подкреплением: многоруких бандитов.
Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.

@postypashki_old
Pandas устарел?
FireDucks предлагает замену без переписывания кода.

🐼 Pandas - самая популярная библиотека для обработки данных, но она уже давно страдает от низкой производительности.

🐻 Современные альтернативы, такие как Polars, предлагают гораздо более высокую производительность, но переход на новые фреймворки требует изучения нового API, что отталкивает многих разработчиков.

🔥🦆 FireDucks 🦆🔥 решает эту проблему, предлагая полную совместимость с Pandas, но с многопоточной обработкой и ускорением работы компилятора. Для перехода достаточно изменить одну строку:

python 
import fireducks.pandas as pd


Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:

python 
$ python -mfireducks.imhook yourfile[.]py


FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.

Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.

FireDucks работает быстрее, чем Pandas и Polars, что подтверждается бенчмарками


🔜Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks

⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo

➡️Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb

💪И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/


#pandas #polars #fireducks #de #dataengineer #dataengineering
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/03/27 01:30:08
Back to Top
HTML Embed Code: