Два месяца с последнего поста вышли достаточно насыщенными. Мы готовим к запуску в ЦУ курсы по Production ML (хотел назвать "Инструменты ML-инженера", но короткое название победило) и ML System Design (учимся решать бизнес задачи с помощью машинки). Продолжается наш студенческий кружок по Kaggle по четвергам и воскресеньям. Придумываются автоматические грейдеры для ML курсов (юнит-тесты и проверка текстовых заданий ллмками). Ну и в целом в универе неожиданно для меня оказалось очень много всего 🐤
Ну и конечно продолжаем работать над курсом для школьников, который должен подготовить их к межнару. Мы попытались уместить весь ML который может встретится на олимпиаде в три месяца, но не смогли, пришлось добавить еще неделю:)
В курсе будет три блока: классика, CV и NLP. Темы - от поиска ликов в соревнованиях до трансформеров и мультимодальности. Получается как будто достаточно жестко, но должно покрыть все темы, с которыми можно будет столкнуться в следующем году🐼
Часть команды курса уже готовила команду к межнару в прошлом году и часть преподавателей будет новая:) В команде Kaggle Grandmasterы, рисерчеры из российского бигтеха и топовых университетов зарубежом.
На курс приглашены финалисты Всероса по ИИ и нескольких других олимпиад, в том числе AIJ (я все еще жду финальный список, про который смогу всем рассказать). После курса мы проведем отборочный этап, чтобы определить команду, которая поедет на межнар. Ну и затем - еще более сложные тренировки и решение домашней части олимпиады💖
Мне нравится то, что у нас получается, и особенно здорово, что этот курс будет полезен не только для команды на межнар, но и для всех остальных школьников, которые на него придут. Надеюсь всем участникам тоже понравится:) Поближе к запуску буду делиться новыми деталями.
Ну и конечно продолжаем работать над курсом для школьников, который должен подготовить их к межнару. Мы попытались уместить весь ML который может встретится на олимпиаде в три месяца, но не смогли, пришлось добавить еще неделю:)
В курсе будет три блока: классика, CV и NLP. Темы - от поиска ликов в соревнованиях до трансформеров и мультимодальности. Получается как будто достаточно жестко, но должно покрыть все темы, с которыми можно будет столкнуться в следующем году
Часть команды курса уже готовила команду к межнару в прошлом году и часть преподавателей будет новая:) В команде Kaggle Grandmasterы, рисерчеры из российского бигтеха и топовых университетов зарубежом.
На курс приглашены финалисты Всероса по ИИ и нескольких других олимпиад, в том числе AIJ (я все еще жду финальный список, про который смогу всем рассказать). После курса мы проведем отборочный этап, чтобы определить команду, которая поедет на межнар. Ну и затем - еще более сложные тренировки и решение домашней части олимпиады
Мне нравится то, что у нас получается, и особенно здорово, что этот курс будет полезен не только для команды на межнар, но и для всех остальных школьников, которые на него придут. Надеюсь всем участникам тоже понравится:) Поближе к запуску буду делиться новыми деталями.
Please open Telegram to view this post
VIEW IN TELEGRAM
У Жени в канале появилась любопытная возможность придумать задачу на межнар по AI. И судя по задачам прошлого года, возможность вполне реальная)
https://www.tgoop.com/tsymbalove/131
https://www.tgoop.com/tsymbalove/131
Telegram
tsymba❤️
Привет, друзья!
Мы открыли набор задач для IOAI 2025 (международной олимпиады школьников по искусственному интеллекту, где в прошлом году победила российская команда).
У вас есть уникальный шанс привнести что-то невероятное и заставить лучшие умы человечества…
Мы открыли набор задач для IOAI 2025 (международной олимпиады школьников по искусственному интеллекту, где в прошлом году победила российская команда).
У вас есть уникальный шанс привнести что-то невероятное и заставить лучшие умы человечества…
Воспользуюсь моментом и сообщу, что такие же задачи нам предстоить придумать на отборочный этап, на котором будет решаться, какая команда поедет на межнар от России. Так что если вашу задачу на межнар не примут, приносите её мне 😄
Внезапно для себя ищу человека, который будет перерисовывать мемы для презентаций в ЦУ
буду рад познакомиться с тем, кто достаточно крейзи чтобы это попробовать
буду рад познакомиться с тем, кто достаточно крейзи чтобы это попробовать
Жизнь и датка
Please open Telegram to view this post
VIEW IN TELEGRAM
Учитель математики в школе говорил нам, что геометрия - это умение решать задачи по неправильным чертежам.
Смотрю на горящие дедлайны по курсам и утешаю себя тем, что преподавание - это умение учить людей по недоделанным материалам.
Смотрю на горящие дедлайны по курсам и утешаю себя тем, что преподавание - это умение учить людей по недоделанным материалам.
Для курса подготовки школьников к межнару решил попробовать собрать два соревнования не сам, а используя o1-pro. В обоих соревнованиях я хотел получить скрипт, который сгенерирует мне train, test, sample_submission, solution - все, что нужно, чтобы завести кегл соревнование. Процесс получился достаточно любопытным, поэтому я решил поделиться своими наблюдениями.
Первым я собирал соревнование на семинар по ML метрикам и константным решениям. Есть класс задач, где можно получить хорошее качество и без обучения моделей - обычно это относится к периодическим паттернам (прогноз погоды на пару месяцев вперед) или к задачам с огромным количеством категорий (прогноз CTR в google ads). На практике это редко заменяет ML модель, но может служить неплохой фичей.
У меня было хорошее понимание что я хочу получить, я постарался максимально ясно и коротко его объяснить, закинул в чатгпт и попросил его задать мне уточняющие вопросы (это оказалось хорошей идеей и сильно помогло🐥 ). В итоге какой-то скрипт, который мне понравился, появился буквально в течении получаса, но вот потом пришлось очень много итерироваться, смотря на результат или читая код. Тут хорошей идеей было попросить напечатать качество моделей и порисовать графики, чтобы я мог проверить наличие закономерностей, которые хотел получить.
С некоторыми штуками у нас так и не получилось справиться - после 3-4 попыток объяснить ему, чего я хочу, приходилось лезть в код исправлять самому. Потом этот код закидывался обратно и с ним вполне получалось работать дальше. Тут пожалуй приведу два примера. Первый: когда я хотел получить некоторую закономерность, формулы которой я сам явно не понимал, додумать мою мысль у чатгпт не получалось. Второй: в какой-то момент был сгенерирован очень долгий и странный расчет статистического бейзлайна, который никак не получалось исправить с помощью наводящих вопросов, и в итоге я за несколько минут переписал его через один групбай.🐼
Вывод тут хочется сделать такой, что у o1-pro хорошо получается выполнять задачи, которые хорошо и однозначно формулируются. Как будто чатгпт не хватало "умения" распознать возникающую проблему и задать правильный вопрос в нужное время: мне кажется, если бы это был не чатгпт, а какой-нибудь другой кеглер или млщик, то он бы сказал, что ничего не понял и нужно дообъяснить. (Думаю, мне тут самому стоило напомнить чатгпт, что она может задавать мне вопросы, если есть существенная неопределенность задачи).
Еще несколько раз встречалась ситуация, когда у чатгпт как будто не хватало "насмотренности". Например, когда я попросил его посчитать качество статистического прогноза, то он решил просто отфильтровать строчки, где прогноз был NaN😅 Еще был такой забавный: когда я сказал, что качество бейзлайна слишком хорошее и попросил его ухудшить, чатгпт просто удалил часть колонок из датафрейма базовой модели 👌 конечно я имел в виду, что нужно сделать зависимость между данными и таргетом более случайной, данные ведь синтетические. Тут видно, что пытаясь удовлетворить запросу формально, был упущен важный контекст (это будет соревнование и участники в качестве бейзлайна ну уж точно догадаются отдать в катбуст все фичи).
Первым я собирал соревнование на семинар по ML метрикам и константным решениям. Есть класс задач, где можно получить хорошее качество и без обучения моделей - обычно это относится к периодическим паттернам (прогноз погоды на пару месяцев вперед) или к задачам с огромным количеством категорий (прогноз CTR в google ads). На практике это редко заменяет ML модель, но может служить неплохой фичей.
У меня было хорошее понимание что я хочу получить, я постарался максимально ясно и коротко его объяснить, закинул в чатгпт и попросил его задать мне уточняющие вопросы (это оказалось хорошей идеей и сильно помогло
С некоторыми штуками у нас так и не получилось справиться - после 3-4 попыток объяснить ему, чего я хочу, приходилось лезть в код исправлять самому. Потом этот код закидывался обратно и с ним вполне получалось работать дальше. Тут пожалуй приведу два примера. Первый: когда я хотел получить некоторую закономерность, формулы которой я сам явно не понимал, додумать мою мысль у чатгпт не получалось. Второй: в какой-то момент был сгенерирован очень долгий и странный расчет статистического бейзлайна, который никак не получалось исправить с помощью наводящих вопросов, и в итоге я за несколько минут переписал его через один групбай.
Вывод тут хочется сделать такой, что у o1-pro хорошо получается выполнять задачи, которые хорошо и однозначно формулируются. Как будто чатгпт не хватало "умения" распознать возникающую проблему и задать правильный вопрос в нужное время: мне кажется, если бы это был не чатгпт, а какой-нибудь другой кеглер или млщик, то он бы сказал, что ничего не понял и нужно дообъяснить. (Думаю, мне тут самому стоило напомнить чатгпт, что она может задавать мне вопросы, если есть существенная неопределенность задачи).
Еще несколько раз встречалась ситуация, когда у чатгпт как будто не хватало "насмотренности". Например, когда я попросил его посчитать качество статистического прогноза, то он решил просто отфильтровать строчки, где прогноз был NaN
Please open Telegram to view this post
VIEW IN TELEGRAM
Приятно удивила меня работа с ошибками - когда у меня вываливалась какая-то ошибка при выполнении кода и я скидывал лог, о1-pro почти всегда фиксил ее правильно (но зато когда ее не получалось пофиксить, то не получалось на протяжении 3-4 итераций и потом я уже забивал и шел фиксить все руками 🐤 ). Здесь думаю, что могла бы помочь среда исполнения, в которой агент мог бы сам итерироваться, но для o1-pro такая пока недоступна. Некоторые ошибки были достаточно хитрыми, и тут бы явно понадобился какой-то дебаг, а не просто "выполнить и посмотреть на конечный результат".
Еще один важный момент, что размышления о1-pro у меня длились достаточно долго (от 1 до 6 минут). С одной стороны, удобно: дал задачу и можешь пойти чай налить или сделать что-то по дому; с другой стороны, долго: когда я устал добиваться текстом каких-то ньюансов решения, стало проще погрузиться в код и самому пофиксить. В конце еще заметил и то, что время от времени чатгпт стал терять некоторые кусочки кода и допускать новые ошибки в старом коде при выполнении новых инструкций (правда, скрипт, которым он оперировал в этот момент уже был длиной в 300 строк).
Опыт с созданием первого соревнования показался мне достаточно любопытным (со вторым получилось тоже интересно, но я устал печатать а вы читать, так что как-нибудь в следующий раз). Кажется в сумме я потратил около 5-6 часов чистого времени, при этом это скорее хорошо: поскольку я не создаю kaggle соревнования каждый месяц, то без чатгпт у меня ушло бы раза в два больше времени. Но отдать разработку соревнования "на аутсорс" чатгпт тоже не вышло: в итоге мне пришлось разобраться во всем коде и прилично его поисправлять😭 . При этом сам "скелет" кода был написан прекрасно и сэкономил мне много времени. Получилась такая работа в паре, где один отвечал за видение конечного результата и доработку сложных кусков, а второй за набросок бойлерплейта и часть доработок по входящим запросам.
Теперь мне интересно, получился ли у кого-нибудь из школьников решить соревнование с чатгпт и что окажется быстрее сделать это самостоятельно:) Думаю, как и в создании соревнования здесь есть какой-то баланс, где чатгпт поможет тебе больше успеть и глубже разобраться, а не решить соревнование целиком. Ну это пока не вышла о3 или что там дальше) А так к следующему году эти соревнования может и придется переделывать)
Еще один важный момент, что размышления о1-pro у меня длились достаточно долго (от 1 до 6 минут). С одной стороны, удобно: дал задачу и можешь пойти чай налить или сделать что-то по дому; с другой стороны, долго: когда я устал добиваться текстом каких-то ньюансов решения, стало проще погрузиться в код и самому пофиксить. В конце еще заметил и то, что время от времени чатгпт стал терять некоторые кусочки кода и допускать новые ошибки в старом коде при выполнении новых инструкций (правда, скрипт, которым он оперировал в этот момент уже был длиной в 300 строк).
Опыт с созданием первого соревнования показался мне достаточно любопытным (со вторым получилось тоже интересно, но я устал печатать а вы читать, так что как-нибудь в следующий раз). Кажется в сумме я потратил около 5-6 часов чистого времени, при этом это скорее хорошо: поскольку я не создаю kaggle соревнования каждый месяц, то без чатгпт у меня ушло бы раза в два больше времени. Но отдать разработку соревнования "на аутсорс" чатгпт тоже не вышло: в итоге мне пришлось разобраться во всем коде и прилично его поисправлять
Теперь мне интересно, получился ли у кого-нибудь из школьников решить соревнование с чатгпт и что окажется быстрее сделать это самостоятельно:) Думаю, как и в создании соревнования здесь есть какой-то баланс, где чатгпт поможет тебе больше успеть и глубже разобраться, а не решить соревнование целиком. Ну это пока не вышла о3 или что там дальше) А так к следующему году эти соревнования может и придется переделывать)
Please open Telegram to view this post
VIEW IN TELEGRAM
В прошлом (уже позапрошлом) году Лёша предложил мне поддержать грантами ребят, которые хотят учиться DS/ML в Казахстане. В прошлом году у меня самого было турбулентное время - я как раз уходил из Iterative, и решил выделить один грант. В итоге у нас что-то не срослось: человек, которому выделили грант, отвалился =/
В этом году я поделился идеей со своими знакомыми, и нам показалось это классной возможностью. В итоге мы собрали аж на 40 грантов. Хотим помочь независимо от возраста умным & из глубинки или меняющим профессию/область деятельности. Из Казахстана, России, и других стран. В том числе иммигрировавшим россиянам. Как бы включается в меняющих профессию, но как будто и особняком стоят.
А я лично хочу этим поддержать ребят, которые хотят научиться машинке, но испытывают материальные сложности, и особенно поддержать ребят из маленьких городов. Мне когда-то очень повезло получить свой шанс, и я буду рад, если смогу кому-то с этим помочь. https://www.tgoop.com/alexdral/806
В этом году я поделился идеей со своими знакомыми, и нам показалось это классной возможностью. В итоге мы собрали аж на 40 грантов. Хотим помочь независимо от возраста умным & из глубинки или меняющим профессию/область деятельности. Из Казахстана, России, и других стран. В том числе иммигрировавшим россиянам. Как бы включается в меняющих профессию, но как будто и особняком стоят.
А я лично хочу этим поддержать ребят, которые хотят научиться машинке, но испытывают материальные сложности, и особенно поддержать ребят из маленьких городов. Мне когда-то очень повезло получить свой шанс, и я буду рад, если смогу кому-то с этим помочь. https://www.tgoop.com/alexdral/806
Telegram
Заметки математика-программиста, Алексей Драль
💝 Именные гранты на обучение, Александр Гущин
Сегодня произошло историческое событие. Мы с Александром подписали договор о грантовой поддержке в размере 40 грантов 🔥😱 на курс Big Data / Machine Learning Engineer.
Это нереально круто, когда в окружении есть…
Сегодня произошло историческое событие. Мы с Александром подписали договор о грантовой поддержке в размере 40 грантов 🔥😱 на курс Big Data / Machine Learning Engineer.
Это нереально круто, когда в окружении есть…
Внезапно для себя, завтра на интервью у Алексея Григорьева на datatalks.club
Осталось вспомнить “tips and tricks” и я готов
https://lu.ma/g8z420bu
Осталось вспомнить “tips and tricks” и я готов
https://lu.ma/g8z420bu
lu.ma
Competitive Machine Learning and Teaching · Luma
Launching a career off Kaggle - Alexander Guschin
Outline:
Launching a career off kaggle
Tips and tricks for kaggle/ML competitions
Career paths after kaggle…
Outline:
Launching a career off kaggle
Tips and tricks for kaggle/ML competitions
Career paths after kaggle…
а вот и ютуб 👉👈
https://www.youtube.com/watch?v=NfAJAr7FvyY
https://www.youtube.com/watch?v=NfAJAr7FvyY
YouTube
Competitive Machine Learning and Teaching - Alexander Guschin
In this podcast episode, we talked with Alexander Guschin about Competitive Machine Learning and Teaching.
During this conversation, Alexander Guschin shared insights about launching a career through Kaggle, offering advice on how to succeed in competitive…
During this conversation, Alexander Guschin shared insights about launching a career through Kaggle, offering advice on how to succeed in competitive…
Зацените что наши студенты сделали в рамках хакатона (буткемпа), который мы проводили эту неделю в ЦУ: задеплоили ботов, которые притворяются людьми и классификаторы, которые таких ботов вычисляют.
Все это работает через вот такую платформу https://turing.culab.ru - где можно зайти и поговорить со случайным собеседником, а потом попробовать угадать - бот он или человек (тоже сделано командой студентов! правда не на хакатоне, а до. но всю неделю у них тоже был свой хакатон по оперативным багфиксам и новым фичам⚡️ )
Если больше технических деталей
1. студенты деплоили http api вебсервисы которые чатятся как люди
2. студенты деплоили http api вебсервисы которые классифицируют сообщения от людей/ботов, пытаясь выявить ботов)
3. бэкенд turing.culab.ru ходил в эти вебсервисы, закидывал туда сообщения, и получал либо ответы (от ботов), либо вероятность того что автор сообщения бот (от классификаторов).
В процессе мы узнали про и научились работать с VSCode, ключами, виртуалками, докерами, апишками ллм, бертами, а кто-то даже зафайнтюнил что-то у openai за 1$ (кажется, 4o).
Закончили мы хакатон с 30+ командами, у которых получилось выжить! и все это задеплоить. Было жестко, но мне понравилось. Студентам кажется тоже🐯
Все это работает через вот такую платформу https://turing.culab.ru - где можно зайти и поговорить со случайным собеседником, а потом попробовать угадать - бот он или человек (тоже сделано командой студентов! правда не на хакатоне, а до. но всю неделю у них тоже был свой хакатон по оперативным багфиксам и новым фичам
Если больше технических деталей
1. студенты деплоили http api вебсервисы которые чатятся как люди
2. студенты деплоили http api вебсервисы которые классифицируют сообщения от людей/ботов, пытаясь выявить ботов)
3. бэкенд turing.culab.ru ходил в эти вебсервисы, закидывал туда сообщения, и получал либо ответы (от ботов), либо вероятность того что автор сообщения бот (от классификаторов).
В процессе мы узнали про и научились работать с VSCode, ключами, виртуалками, докерами, апишками ллм, бертами, а кто-то даже зафайнтюнил что-то у openai за 1$ (кажется, 4o).
Закончили мы хакатон с 30+ командами, у которых получилось выжить! и все это задеплоить. Было жестко, но мне понравилось. Студентам кажется тоже
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Жизнь и датка
Два месяца с последнего поста вышли достаточно насыщенными. Мы готовим к запуску в ЦУ курсы по Production ML (хотел назвать "Инструменты ML-инженера", но короткое название победило) и ML System Design (учимся решать бизнес задачи с помощью машинки). Продолжается…
Курс для подготовки школьников к межнару по AI пройден ими уже примерно на половину, а мы начинаем готовиться к отборочному этапу, который окончательно определит состав команд.
Мы планируем делать его в том же формате, что и сам межнар:
- At-Home Round: решение 3х задач дома в течение месяца
- Contest 1: продолжение задач из At-Home Round (3 задачи, 6 часов решения задач на площадке оффлайн)
- Contest 2: новые задачи, не связанные с предыдущими этапами (2 или 3 задачи, 6 часов решения задач на площадке оффлайн)
Если вам интересно поучаствовать в этом движе, зову вас поконтрибьютить задачами и идеями для At-Home Round) Это может быть как готовая задачка - совсем идеально, но может быть и просто proof of concept в ноутбуке в колабе (еще подробней расписали с Мэри вот тут). Основной критерий - чтобы задачу было интересно решать. Если у вас есть любимая задачка для собеса по ML, интересный датасет или прикольная штука в ML, которая вам кажется нетривиальной и любопытной, приносите вашу идею🐥 Мы выберем лучшие, превратим их в задачи (и конечно позовем вас нам помочь), а вас позовем на отборочный в мае в Москве - рассказать про вашу задачу и пообщаться с участниками.
Мы планируем делать его в том же формате, что и сам межнар:
- At-Home Round: решение 3х задач дома в течение месяца
- Contest 1: продолжение задач из At-Home Round (3 задачи, 6 часов решения задач на площадке оффлайн)
- Contest 2: новые задачи, не связанные с предыдущими этапами (2 или 3 задачи, 6 часов решения задач на площадке оффлайн)
Если вам интересно поучаствовать в этом движе, зову вас поконтрибьютить задачами и идеями для At-Home Round) Это может быть как готовая задачка - совсем идеально, но может быть и просто proof of concept в ноутбуке в колабе (еще подробней расписали с Мэри вот тут). Основной критерий - чтобы задачу было интересно решать. Если у вас есть любимая задачка для собеса по ML, интересный датасет или прикольная штука в ML, которая вам кажется нетривиальной и любопытной, приносите вашу идею
Please open Telegram to view this post
VIEW IN TELEGRAM
Таня Гайнцева @dl_stories пишет мне, что хорошие идеи, которые не подойдут по формату для межнара, она может унести в олимпиаду DLS. Так что не стесняйтесь, закидывайте все, что вам нравится:)
Жизнь и датка
Курс для подготовки школьников к межнару по AI пройден ими уже примерно на половину, а мы начинаем готовиться к отборочному этапу, который окончательно определит состав команд. Мы планируем делать его в том же формате, что и сам межнар: - At-Home Round:…
Please open Telegram to view this post
VIEW IN TELEGRAM
Просто оставлю это здесь https://youtu.be/uJBjQeTtiDs
YouTube
Гении из России победили США и Китай в ИИ! Мир IT в шоке! Как повторить их успех?
▶︎ Участвуйте в конкурсе грантов на обучение в Центральном университете — https://l.tbank.ru/botalkamar
Как попасть в топ на Kaggle? Что даёт участие в AI-олимпиадах? И реально ли студенту заработать на хакатонах?
В новом выпуске «Боталки» поговорили с…
Как попасть в топ на Kaggle? Что даёт участие в AI-олимпиадах? И реально ли студенту заработать на хакатонах?
В новом выпуске «Боталки» поговорили с…