Forwarded from Data1984
While US markets are panicking you can try to play with DeepSeek by installing it locally or using Cursor, it is already available there.
https://dev.to/lunaticprogrammer/using-deepseek-r1-in-visual-studio-code-for-free-2279
https://dev.to/lunaticprogrammer/using-deepseek-r1-in-visual-studio-code-for-free-2279
Forwarded from После Пар - студивенты в Москве 🎫
Открытые и бесплатные лекции по аналитике и Data Science. Расписание в карточках 👆
Подойдёт и тем, кто пока далек от IT, но хочет погрузиться в тему.
🗓 2 февраля в 10:00
📍 Покровский бульвар, 11 (вход 4), Центр культур НИУ ВШЭ
Детали и регистрация до 29 января: https://cs.hse.ru/dpo/datascienceschool/winter2025/
Подойдёт и тем, кто пока далек от IT, но хочет погрузиться в тему.
Детали и регистрация до 29 января: https://cs.hse.ru/dpo/datascienceschool/winter2025/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Зимняя школа по аналитике и Data Science «IT-сеанс: погружение в мир данных»
📍 Москва
⏰ вс, 02 февраль 2025, 10:00 (+0300)
Центр непрерывного образования приглашает на зимнюю школу «IT-сеанс: погружение в мир данных». Вас ждут лекции и мастер-классы от спикеров из таких компаний, как: Яндекс, Т-Банк, Купер, Okko, Авито, Билайн, Банк России, Эйч.
Приглашаем всех, кто хочет разобраться:
зачем переходить в IT
как построить карьеру в аналитике и Data Science
-как Data Science применяется в разных индустриях
Помимо выступлений спикеров, вы сможете:
предоставить свое резюме, получить обратную связь и советы по улучшению
пообщаться с экспертами и понять, как устроены прикладные задачи в индустрии
выиграть памятные призы за участие в дополнительных активностях
Участие бесплатное для всех желающих, требуется регистрация.
Подписывайтесь на новые мероприятия в боте @NetworklyBot
📍 Москва
⏰ вс, 02 февраль 2025, 10:00 (+0300)
Центр непрерывного образования приглашает на зимнюю школу «IT-сеанс: погружение в мир данных». Вас ждут лекции и мастер-классы от спикеров из таких компаний, как: Яндекс, Т-Банк, Купер, Okko, Авито, Билайн, Банк России, Эйч.
Приглашаем всех, кто хочет разобраться:
зачем переходить в IT
как построить карьеру в аналитике и Data Science
-как Data Science применяется в разных индустриях
Помимо выступлений спикеров, вы сможете:
предоставить свое резюме, получить обратную связь и советы по улучшению
пообщаться с экспертами и понять, как устроены прикладные задачи в индустрии
выиграть памятные призы за участие в дополнительных активностях
Участие бесплатное для всех желающих, требуется регистрация.
Подписывайтесь на новые мероприятия в боте @NetworklyBot
Обзор ключевых направлений ML
#w06 вт 04.02 в 18:00 НИУ ВШЭ
https://cs.hse.ru/sber/ai_recsys_lectures/polls/1008383094.html
Хотите узнать, как ML меняет подход к взаимодействию с человеком? В нашей лекции мы рассмотрим методы пресонализации предложений во всех ключевых взаимодействиях с человеком.
Мы покажем, как возможно увеличивать покрытие персонализации, сокращая при этом ненужные коммуникации. Это отличная возможность погрузиться в ключевые ML-направления.
Расскажем о направлениях работы департамента данных и рекомендательных систем, а также поможем сориентироваться в выборе карьерного трека в Сбере.
Место проведения: г. Москва, ул. Покровский б-р д.11, R304
#w06 вт 04.02 в 18:00 НИУ ВШЭ
https://cs.hse.ru/sber/ai_recsys_lectures/polls/1008383094.html
Хотите узнать, как ML меняет подход к взаимодействию с человеком? В нашей лекции мы рассмотрим методы пресонализации предложений во всех ключевых взаимодействиях с человеком.
Мы покажем, как возможно увеличивать покрытие персонализации, сокращая при этом ненужные коммуникации. Это отличная возможность погрузиться в ключевые ML-направления.
Расскажем о направлениях работы департамента данных и рекомендательных систем, а также поможем сориентироваться в выборе карьерного трека в Сбере.
Место проведения: г. Москва, ул. Покровский б-р д.11, R304
За неделю это, конечно, не реально, но есть отличный способ прокачаться - бесплатный ML Bootcamp от OpenBio. Начиная с сегодняшнего (
Кроме того, участников ML Bootcamp ждут подарки:
Если не хотите ждать, то вот вам скидка 15% по промокоду DATA уже сейчас.
https://www.tgoop.com/datafeeling/1212
Please open Telegram to view this post
VIEW IN TELEGRAM
The Hugging Face AI Agents Course 🤗
На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.
https://bit.ly/hf-learn-agents:
The Hugging Face AI Agents Course 🤗
Register now for the Hugging Face Agents Course 🤗!
Next Start Date: February 10th 2025!
In this free course, you will:
📖 Learn the basics of Agents from scratch.
🕵️ Build your own Agents using the latest libraries and tools.
🎓 Earn a certificate of completion to showcase your achievement.
Checkout the syllabus, prerequisites, and details on this Hugging Face Hub Organization 🏡 https://huggingface.co/agents-course
Join our community on Discord to connect with other learners and our team 👉🏻 https://discord.gg/UrrTSsSyjb
#ИИСаммари (as is)):
Курс агентов по уходу за лицом в обнимку
Запуск курса "Агенты по уходу за лицом в обнимку"
• Курс поможет создать и внедрить агентов искусственного интеллектаLink
• Рассчитан на 6 недель, проходящих раз в две неделиLink
• Начало курса: 10 февраля 2025 годаLink
Программа курса
• Адаптационный блок: предоставление инструментов и платформLink
• Основные принципы работы агента: инструменты, мысли, действия, наблюдения, LLM, сообщения, токены, шаблон чата, универсальные функции pythonLink
• Фреймворки: smolagents, LangGraph, LLamaIndexLink
• Варианты использования: создание примеров в реальной жизниLink
• Окончательное задание: создание агента по выбранному критерию, участие в таблице студенческих лидеровLink
Дополнительные бонусы
• В ближайшие недели будут выпущены дополнительные блокиLink
График
• Начало 10 февраля 2025 годаLink
• 4 тематических блока, новый блок каждые 2 неделиLink
• Блоки содержат живое занятие, письменные материалы и интерактивную викторинуLink
Предпосылки
• Программирование на PythonLink
• Запрос LLMLink
• Аккаунт Hugging Face (бесплатный)Link
Сообщество
• Присоединяйтесь к сообществу "Обнимающее лицо Диссонирует" для изучения курса, внесения вклада или обсужденияLink
Источник: https://www.tgoop.com/dataeng/624
На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.
https://bit.ly/hf-learn-agents:
The Hugging Face AI Agents Course 🤗
Register now for the Hugging Face Agents Course 🤗!
Next Start Date: February 10th 2025!
In this free course, you will:
📖 Learn the basics of Agents from scratch.
🕵️ Build your own Agents using the latest libraries and tools.
🎓 Earn a certificate of completion to showcase your achievement.
Checkout the syllabus, prerequisites, and details on this Hugging Face Hub Organization 🏡 https://huggingface.co/agents-course
Join our community on Discord to connect with other learners and our team 👉🏻 https://discord.gg/UrrTSsSyjb
#ИИСаммари (as is)):
Курс агентов по уходу за лицом в обнимку
Запуск курса "Агенты по уходу за лицом в обнимку"
• Курс поможет создать и внедрить агентов искусственного интеллектаLink
• Рассчитан на 6 недель, проходящих раз в две неделиLink
• Начало курса: 10 февраля 2025 годаLink
Программа курса
• Адаптационный блок: предоставление инструментов и платформLink
• Основные принципы работы агента: инструменты, мысли, действия, наблюдения, LLM, сообщения, токены, шаблон чата, универсальные функции pythonLink
• Фреймворки: smolagents, LangGraph, LLamaIndexLink
• Варианты использования: создание примеров в реальной жизниLink
• Окончательное задание: создание агента по выбранному критерию, участие в таблице студенческих лидеровLink
Дополнительные бонусы
• В ближайшие недели будут выпущены дополнительные блокиLink
График
• Начало 10 февраля 2025 годаLink
• 4 тематических блока, новый блок каждые 2 неделиLink
• Блоки содержат живое занятие, письменные материалы и интерактивную викторинуLink
Предпосылки
• Программирование на PythonLink
• Запрос LLMLink
• Аккаунт Hugging Face (бесплатный)Link
Сообщество
• Присоединяйтесь к сообществу "Обнимающее лицо Диссонирует" для изучения курса, внесения вклада или обсужденияLink
Источник: https://www.tgoop.com/dataeng/624
📆 Что обсуждалось вчера 12.02.2025
🐳 Использование Docker в разработке (2 сообщений)
Интересные ссылки:
🔗 Мастер-класс по Docker, который объясняет его полезность и применение в разработке.
#dailysummary | ⭐️ поддержать команду
🐳 Использование Docker в разработке (2 сообщений)
Интересные ссылки:
🔗 Мастер-класс по Docker, который объясняет его полезность и применение в разработке.
#dailysummary | ⭐️ поддержать команду
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые есть в 2023, которых нет в 2021 и наоборот, поэтому я попробовал их объединить.
Сегодня начнем (поздний анонс немного), но там типа интро всего лишь, думаю не очень критично
Информация тут:
https://www.tgoop.com/sberlogawithgraphs/26044
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые есть в 2023, которых нет в 2021 и наоборот, поэтому я попробовал их объединить.
Сегодня начнем (поздний анонс немного), но там типа интро всего лишь, думаю не очень критично
Информация тут:
https://www.tgoop.com/sberlogawithgraphs/26044
Telegram
🇻 🇱 🇦 🇩 in Sberloga in Graphs
Ребята
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые…
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые…
Forwarded from AI Safety. Основы
ИИ меняет мир с безумной скоростью, но вместе с этим несет в себе серьезные риски. Задача AI Safety – позаботиться, чтобы эти изменения были положительными
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
Этим курсом мы готовим людей себе в команды и в команды наших друзей из сейфти лаб. Поэтому курс бесплатный. По этой же причине делаем серьезный отбор кандидатов
Для кого?
Программа из двух треков:
Экспертиза менторов покрывает: evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability
Сертификат и карьерная консультация по окончанию курса
Менторское сопровождение лучших проектов до публикации после курса
Детали:
По вопросам пишите @anton_zheltoukhov
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Complete AI
Что не так с LLM?
🔵 Модели игнорируют команды
🔵 Даже лучшие LLM фантазируют
🔵 RAG не работает с первого раза
🔵 API дороже, чем кажется
🔵 Инференс без оптимизации — дорогое удовольствие
На лекции 20 февраля в 18:00 на лекции DeepSchool спикеры разберут эти и другие проблемы LLM, и покажут, как их решать на примере реальной задачи✔️
Спикеры:
🙂 Илья Димов — Senior NLP-инженер
🙂 Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer, KoronaPay
Регистрируйтесь на лекцию и получите список полезных инструментов и библиотек для работы с LLM, а также скидки на обучение.
Поделитесь в комментариях мнением: какая главная проблема LLM сегодня?
На лекции 20 февраля в 18:00 на лекции DeepSchool спикеры разберут эти и другие проблемы LLM, и покажут, как их решать на примере реальной задачи
Спикеры:
Регистрируйтесь на лекцию и получите список полезных инструментов и библиотек для работы с LLM, а также скидки на обучение.
Поделитесь в комментариях мнением: какая главная проблема LLM сегодня?
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Поступашки - ШАД, Стажировки и Магистратура
Эти пет проекты должен сделать каждый ML специалист
Устроиться можно и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна. А если хотите обогатить свое портфолио совсем мощными пет проектами, то советую наш курс МЛ хард.
1. Кредитный скоринг
Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.
2. Наивный Байесовский классификатор (НБК)
Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:
1. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
2. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
3. Вычисляем прогнозируемый результат с помощью условных вероятностей.
НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.
3. MLOps
Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.
4. Ранжирование и матчинг
Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.
5. Рекомендашки
Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
Также стоит попробовать обучение с подкреплением: многоруких бандитов.
Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.
@postypashki_old
Устроиться можно и без проектов, но если у вас их нет, то мл кейсы будут решаться неуверенно и на финалах будете выглядеть слабее других. Никто не ждет гениального проекта с инфраструктурой— реализовать какие-то бейзлайны и понимать специфику задач уже достаточно для стажера и джуна. А если хотите обогатить свое портфолио совсем мощными пет проектами, то советую наш курс МЛ хард.
1. Кредитный скоринг
Стоит ли давать кредит— довольно популярная задача и отличный выбор для новчиков, чтобы самостоятельно проделать все этапы. Сначала берем любой датасет на kaggle по запросу Credit Scoring. Проводим EDA, генерируем гипотезы, фичи, готовим данные для модели и делаем бейзлайн: логистическая регрессия. Затем уже можно попробовать случайный лес, градиентный бустинг, KNN или еще что по вкусу— сравниваем метрики. И на последок не забываем проанализировать результаты и культурно презентовать. Можно провести АВ тест на смой первой модели.
Все варианты решения и реализации можно найти в интернетах: GitHub, Хабр. Очень полезным будет посмотреть всякие выступления на конференциях по этой теме для вдохновения, да и это очень поможет на мл кейсах.
2. Наивный Байесовский классификатор (НБК)
Для конкретики будем классифицировать письма на спам. Опять же обработаем данные: удаляем числа, знаки препинания, стоп-слова, стемминги, лемматизацию.
Объединяем все методы предварительной обработки и создаём словарь слов и счётчик каждого слова в наборе данных для обучения:
1. Вычисляем вероятность для каждого слова в тексте и отфильтровываем слова со значением вероятности меньше порогового. Такие слова будут нерелевантными.
2. Для каждого слова в словаре создаём вероятность, что это слово окажется в спаме. Определяем условную вероятность для использования её в НБК.
3. Вычисляем прогнозируемый результат с помощью условных вероятностей.
НБК реализовать не сложно. Куда интересней погрузиться во всю теорию, которая за этим стоит, в вероятностные модели. К тому же, кейс фильтрации спама и подобного часто встречается на собесах.
3. MLOps
Можно наладить какой-то минимальный прод для проектов: например телеграм бот или FastAPI. Можно еще автоматизировать пайплайн с помощь AirFlow и попробовать запустить инфраструктуру не только локально, но и облаке. Конечно нужно будет поизучать Docker, Cuber, Hadoop, Spark, HDFS, Kafka. Но на самом деле ничего трудного— после нашего курса дата инженер будете делать такие вещи по щелчку пальцев.
4. Ранжирование и матчинг
Для начала лучше пробежаться глазами по статье и посмотреть, что пишут в интернетах. Можно выделить три подхода к задаче: поточечный, попарный, списочный. Советую начать с первого как самого простого. Для конкретики будем предсказать оценку релевантности для запросов тестового датасета. Здесь можно кстати поучиться парсить web-страниц и собирать сырые данные, размечать их с помощью какого-нибудь Яндекс-Толока. Делаем регрессию, а затем Random Forest Regressor, XGBoost, lightGBM, CatBoost.
Совсем продвинутые могут попробовать языковые модели в духе FastText, Word2Vec, DSSM и более сложные: BERT, можно даже попробовать архитектуру трансформеров.
5. Рекомендашки
Очень популярный кейс на собесах. Для начала лучше пробежаться глазами по этому разделу и посмотреть, что пишут в интернетах. Затем начинаем реализовывать самое простое как бейзлайн, например, content-based рекомендации, KNN. Дальше можно попробовать факторизации матрицы рейтингов по svd разложению или по более эффективной als архитектуре и функции ошибок bpr. Затем можно попробовать W2V подход, чтобы использовать последовательность взаимодействий пользователя для построения рекомендации следующего предмета.
Для знатоков DL можно попробовать DSSM, SasRec/Bert4Rec, MultVAE, Merlin или графовые нейронки: GCN-подобные архитектуры.
Также стоит попробовать обучение с подкреплением: многоруких бандитов.
Ну и конечно рекомендательные системы можно попробовать рассмотреть как задачу ранжирования.
@postypashki_old
Pandas устарел?
FireDucks предлагает замену без переписывания кода.
🐼 Pandas - самая популярная библиотека для обработки данных, но она уже давно страдает от низкой производительности.
🐻 Современные альтернативы, такие как Polars, предлагают гораздо более высокую производительность, но переход на новые фреймворки требует изучения нового API, что отталкивает многих разработчиков.
🔥 🦆 FireDucks 🦆 🔥 решает эту проблему, предлагая полную совместимость с Pandas, но с многопоточной обработкой и ускорением работы компилятора. Для перехода достаточно изменить одну строку:
Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:
FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.
Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.
FireDucks работает быстрее, чем Pandas и Polars, что подтверждается бенчмарками
🔜 Здесь находится репозиторий FireDucks на GitHub:
https://github.com/fireducks-dev/fireducks
⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo
➡️ Если вы хотите сравнить FireDucks с Polars и Pandas, вот еще один блокнот:
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb
💪И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/
#pandas #polars #fireducks #de #dataengineer #dataengineering
FireDucks предлагает замену без переписывания кода.
python
import fireducks.pandas as pd
Вы также можете запустить свой код *не* изменяя ни одной строки, используя хук:
python
$ python -mfireducks.imhook yourfile[.]py
FireDucks — это многопоточная библиотека с ускорением компилятора и полностью совместимым с pandas API.
Она быстрее, чем Polars. Ниже приведена ссылка на некоторые бенчмарки, сравнивающие Pandas, Polars и FireDucks.
FireDucks работает быстрее, чем Pandas и Polars, что подтверждается бенчмарками
https://github.com/fireducks-dev/fireducks
⛓️Если вы хотите пощупать либу, откройте этот пример:
https://github.com/fireducks-dev/fireducks/tree/main/notebooks/nyc_demo
https://github.com/fireducks-dev/fireducks/blob/main/notebooks/FireDucks_vs_Pandas_vs_Polars.ipynb
💪И наконец, бенчмарки, с которыми стоит ознакомиться:
https://fireducks-dev.github.io/docs/benchmarks/
#pandas #polars #fireducks #de #dataengineer #dataengineering
Please open Telegram to view this post
VIEW IN TELEGRAM