Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on null in /var/www/tgoop/function.php on line 65
875 - Telegram Web
Telegram Web
Баскетбольный бросок

Вы должны выбрать одну из двух ставок. При первом варианте вы должны забросить баскетбольный мяч в корзину за один бросок. Если попадёте, то получите 50 тыс. рублей. Во втором варианте вам надо попасть два раза из трёх бросков, и тогда вы также получите те же 50 тыс. рублей. Какой из этих вариантов вы предпочтёте? Будет ли ваше умение забрасывать мячи влиять на выбор?

#problem
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥4
asisakov
Video message
Сегодня в Школе Спикеров. Прокачиваемся с коллегами, чтобы топово выступать.

При этом классно, что получается набраться интересных идей не только для софтовых докладов, но и технических - из которых на 100% обычно состоят мои выступления.

UPD. В прошлом году тоже вписался, очень зашло

#speaking
🔥65👍2
This media is not supported in your browser
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
А вот я и на Датафесте

Успел оттараторить доклад за 24 минуты. Кажется, что успех. Но планировал уместить эти 70 слайдов конечно в чуть более короткий промежуток.

Надеюсь вам всем зашло и не было очень душно!💪🏿

#speaking
🔥29❤‍🔥8👍4
Интересное что-то от ребят, кого я читаю v0.16

Предыдущий пост тут
Интересное что-то тут

Пробежимся быстро по тому, что я успел посмотреть:

1. Сережа открыл свой цикл техник демотивации. До этого был пройден цикл по мотивации. Интересно изучить, довольно свежий взгляд

2. Ренат написал обьемную заметочку про RAG. В последнее время все в голове удержать про раги сложно, но круто, что все собрано в одно месте

3. Борис поделился интересными датасетами с промпт-атаками. Есть неплохие моменты, которые можно утащить в свои промпты

4. В обучении одной модели разобрали статью, которая звучит примерно так: лучше изучить один кейс тысячу раз, чем изучить тысячу кейсов

5. Арсений коротко (в трех постах) описал лекцию про VLMки, которую он рассказывал и даже приложил презентацию. Плотный контент, мне зашло

#interesting
7👍5🔥3
Для тех, кто сейчас проходит те самые испытания, к которым готовишься 11 лет

В то время, когда уже весь мир состоит из этих заданий, формул и текстов, подсчетов баллов за задания, я хочу напомнить лишь об одном - ЕГЭ всего лишь один из многих шагов на нашем пути.

Вы уже сильнее, чем думаете

Каждая решенная задача, каждый выученный параграф — это ваша маленькая победа. Вы растете, развиваетесь и становитесь стойкими с каждым днем. Учитесь методично двигаться к своей цели, когда перспективы будут понятны далеко потом, а не сейчас

Вы уже уникальны в своих проявлениях

У каждого свой темп, свои сильные стороны. Кто-то схватывает математику на лету, кто-то пишет потрясающие сочинения. Кому-то интересней решать те задачи, которые он уже видел, а кто-то с головой бросается в неизведанное. Ваш путь — уникален.

Ошибки — это не провал, а опыт

Каждая неправильно решенная задача может научить нас больше, чем правильно решенная. Наша задача понять это и отпускать ошибки. Не страшно ошибиться, ведь за обычную ошибку ничего не будет и мы можем попробовать еще

Помните про отдых

Мозг — не машина, ему нужны паузы. Прогулка, любимая музыка, общение с друзьями — это не потерянное время, а инвестиция в вашу продуктивность. Пока мы разгружаем мозг, он накапливает ресурс, чтобы решить наши задачи.

Результат экзамена не определяет вашу ценность

Я точно знаю, что вы талантливы, умны и достойны счастья независимо от баллов. Если немного не повезло, то всегда можно попробовать еще раз. Не страшно потерять немного времени, страшно поздно понять, что был сделан неправильный выбор

Дышите глубже и верьте в себя. У вас все получится💪🏿
❤‍🔥12👍6🔥31
Товарищи

Накидайте пожалуйста болей и проблем, кто с чем сталкивался во время прохождения курсов. Подойдут и обычные универские, и на условной Курсере и Скиллбоксах.

Типа например, взял 3 потных курса подряд (это почти про меня, я просто 5 брал и в конце уже ничего не соображал), еле прослушал все лекции, домашки были списаны - в итоге в голове почти ничего не отложилось.

Хочу потом сделать на этой основе опрос и приложить инфу к докладу на Датафесте в секции про образование, про который слегка упомянул тут
This media is not supported in your browser
VIEW IN TELEGRAM
🤝5🔥3🍓1
Прошла AHA

В целом, показалось неплохо. Зал был большой, по народу кстати днем было не так сильно заполнено - все пошли фармить мерч😹

Встретил много знакомых (бывших коллег, например) и незнакомых (товарищи с сообществ). О докладах, как ни странно, успели поговорить и до и после выступления. Интересно было услышать отзывы про прошлый доклад. Про нынешний, с которым я выступал, кстати тоже говорили много, но уже больше про детали.

Мне кстати показалось, что у коллег по треку были более душные доклады чем мои, много формул и схем. Короче, по контенту было хорошо.

Несколько раз переглядывались с Виктором Кантором, что я на миг испугался, как будто он меня может знать😹 но все обошлось, я подошел, пошутил, мы поздоровались и он переключился на другую беседу😹

Из интересного - первые 3 минуты как-то подтупливал кликер, что меня выбило из колеи, но потом я разогнался, только к сожалению опять не хватило пары минут. В конце я понял, что надо было жертвовать временем на вопросы, но был уже в конце.

Есть мысль, что на эту серию презентаций надо все-таки хотя бы час, чтобы все успеть проговорить. Возможно, подумаю как выступить с расширенной максимально душной версией.

Остался еще один доклад на выходных с новой для меня темой и думаю можно будет выдохнуть (только выдохнуть, поработать никто не отменял). И знаете, так необычно по ощущениям: в один день думаю, какая офигенная тема, в следующий день все переделываю, потом опять радусь что ок, а потом снова нахожу моменты для корректировок.

Благо, очень помогает Настя своим видением с точки зрения своего опыта в преподавании и нейропсихологии. Думаю, вам зайдет. Точно зайдет😹

#speaking
❤‍🔥11👍6
asisakov
С какими болями я чаще всего сталкиваюсь при прохождении курсов в DS сфере?
Сверху создал опрос (мультивыбор), давайте попробуем ответить по ощущениям. Надеюсь попал по нашим/вашим болям. Если есть что добавить, то welcome в комментарии💪🏿

#education #speaking #courses
👍2🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Как слушает один из самых заинтересованных слушателей

#meme
🔥7😁6🥰3😍1
Интересное что-то от ребят, кого я читаю v0.17

Предыдущий пост тут
Интересное что-то тут

Нашлось несколько смелых коллег, кто поделился постами, погнали:

1. Кирилл поделился постом Бориса, где есть интересная отсылка к выводам Розенблатта о том, что будущее развитие DS скорее всего будет идти в нескольких направлениях: масштабирование, генерализация, аугментация, генерация, мультимодальность и так далее.
What a time to be alive - буквально во всех этих направлениях идет жесткий буст, и это очень классно💪🏿

2. Саша приложил статью, где говорится о новых методах обхода разреженных графов, где показывается, что походу алгоритм Дейкстры может быть неоптимальным

3. Владимир анонсировал сходку участников сообщества Хи-хи квадрат

4. Раф расписал разные причины, почему нам могут давать скидку. Возможно вы удивитесь, но это может происходить не только для того, чтобы заработать - компании может быть например интересно померить эластичность. Кстати, про то, как это завести в тесте, недавно и рассказывали коллеги Рафа (естественно и мои тоже) на Датафесте. Если просто: нужно много данных и изменений.

5. Анна рассказала про простую технику проверки атмосферы в команде (для этого всего лишь нужно залезть в чатик команды, но в остальном не так сложно). Делаем так: на собесе просим будущего руководителя достать телефон и проверяем чаты💪🏿

UPD. Этот пост я подкорректировал. Изначально здесь было написано, что я немного не успеваю подготовить материалы и попросил вас скинуть мне интересные ваши посты. Как раз вышло так, что откликнулись 5 человек, и я решил собрать эти посты здесь. Формат вышел интересный, мб как-нибудь повторим.

#interesting
🔥5😁2🥴1
Типичный день, когда я опять ничего не успеваю

И все же немного успели вписаться с командой в небольшой AI Coding Hackathon внутри Яндекса, где соревновались в создании легких сервисов с нуля. Буквально очень непростая задача, потому что надо и придумать идею, и вовремя останавливать модельку, вчитываться в огромный план целого дизайна, нагегерить код, убедиться, что он не работает, пойти снова собрать новый промпт, пойти снова нагегерить дизайн, снова попросить написать код. И потом отлаживать баги. И все это надо успеть за 3 часа!

Ааааааааааа 🔥🔥🔥

Просто жесть. Я настолько привык работать с привычными вещами, что это далось очень тяжело. Например, жить с одним окружением и ничего не менять (плохой пример, не следуйте ему. Должно быть одну окружение на один проект). Мне даже пришлось попотеть с установкой нового окружения😹

А сейчас уже еду на День Рождения, чтобы там посидеть за компом и запустить расчеты 😕

Но это очень драйвит и очень интересно. Вот когда скучать, когда тебе надо все успеть, а неумение нельзя - приходится выкручиваться!

Надеюсь у вас такой же кайф от вашей деятельности😹

P.S. На основе ваших комментариев подредачил предыдущий пост. Рекомендую еще раз ознакомиться - по мне получилось интересно, когда вы делитесь своими постами. Мб как-нибудь провернем это дело еще раз.

#life
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5🔥4🥰2
Работа в стол

Вспомнили тут на встрече одну модельку, которую я пилил в прошлом году вечерами в свободное от работы время. Зашел в папку, там 17 файликов, несколько подходов к модели, работа с данными и даже непростая реализация кросс-валидации.

Буквально доготовили модельку, хотели приготовить ее для прода, и вдруг решили еще потратить время на рисеч для совсем другого подхода на других дискретностях данных. В итоге модельку не выкатили

Норм метрики, понятная архитектура, полупродовый код. Но в продукте нужно менять подход: подобранная гранулярность уже не устраивает, нужно идти глубже.

Знакомо это чувство?

Когда сидишь вечерами-ночами, когда модель почти готова, когда на выходных головой перебираешь фичи. Когда блин задача реально интересная, и ждешь какой-то результат.

База

▫️Давайте выкатим, почти добили, может кому-то и пригодится для выводов
▫️А точно нужны эти новые гранулярности? Без них жить нельзя?
▫️Был бы я менеджером бизнесовым, такой фигней не занимался бы

Почему тащить дальше невыгодно?

1️⃣Коллеги не будут мотивированы работать без результата
2️⃣Техдолг только возрастет и будет просто занимать наше внимание, при этом не забываем про костыли поверх костылей
3️⃣На допиливание фичи может уйти много времени, которое было бы полезно применить на другие активности
4️⃣Чем больше вкладываешь, тем сложнее остановиться

Что можно было сделать лучше?

▫️Не закладывать такие маленькие ресурсы и сроки, для серьезного исследования нужно много времени
▫️Правильно рассчитать усилия и предпосылки с точки зрения менеджмента
▫️Сравнивать метрики не только с точки зрения эффективности алгоритма, но и с точки зрения бизнеса

А действительно ли это исследование нам было необходимо?

▫️Соответствуют ли цели исследования стратегическому движению компании?
▫️Действительно ли задача требует глубокого исследования?
▫️Оценивался ли финансовый эффект/ROI этого исследования?

Как сделать хорошо

1️⃣Заранее прикидываем порог метрики и срок исследования: "если через месяц accuracy < 80%, стопим"
2️⃣Делимся прогрессом и видением метрик с бизнесом
3️⃣Оцениваем косты и затраты на проект и его поддержку
4️⃣Готовим MVP и быстро итерируемся

Ну как минимум, работа в стол дает нам хороший опыт: прокачиваемся в нужном нам направлении, при этом можем переиспользовать в других проектах топовые решения, и даже сразу набиваем шишки на подводных камнях

Наша задача здесь - это не забить на эмоции, а прожить их и сделать конструктивные выводы

И все же тяжело видеть, как месяцы работы уходят в в стол. Важно извлекать уроки и не повторять системные ошибки. Вообще, статистика говорит, что это ок. В бигтехах например не взлетают сотни проектов. Сколько стартапов закрывается до получения первого дохода!

Суть в том, как быстро мы учимся.

Чем быстрее итерируемся, тем лучше. Не взлетело? Го дальше. Гипотеза не сработала? Идеи дальше. В конце концов что-то взлетит. Статистика на нашей стороне.

Кстати, то же самое работает и с собеседованиями

У вас были работы в стол?

#softskills
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍6💯5🔥1
Что заботать от ШАДа

Тут недавно закончились вступительные в Школу Анализа Данных. Слава богу, что мне не надо поступать, а можно просто посмотреть лекции😹 хотя например в одно время я подумывал влететь в обучение, но решил не рисковать нагрузкой, хотя любллю все неуспевать.

Но тем не менее от самих коллег из ШАДа есть годные открытые ресурсы, и ниже давайте я приложу небольшой списочек.

▫️Открытый учебник по машинному обучению

Интенсивы:

1️⃣CV week - полный упор на диффузионные генеративные модельки. По сути курсы ведут те самые ребята, кто создает YandexART. Перед диффузионками я бы конечно сначала порекомендовал вкатиться в классический CV, но это интенсив, а не жесткий курс, поэтому смотрите сами по настроению (может быть больно).

2️⃣GPT week - тут прям база базовая про LLMки: сначала претрейн, потом оценка качества и бенчи, ну а после алайменты и инференсы моделек. Есть подготовительная лекция с введением в большие модельки, поэтому предложил бы все же сильно не запариваться с базой. Думаю легкого понимания, что происходит в NLP, будет норм для базы. Но очевидно, что поботать было бы хорошо. Меньше знаешь - крепче меньше спишь - приходится ботать.

3️⃣SRE week - хороший кстати интенсив про высоконагруженные системы и как ими заниматься, потому что на практике такое потыкать почти нереально, поэтому хоть что-то узнать от практикующих коллег из индустрии просто топ. Там и про поломки и их обнаружение, понимание необходимости жесткого погружения в языки программирования, и даже зачем нужны дежурства, а еще как процессно проводить работу SRE.

4️⃣Big DWH week - плотная база про распределенные БД, и в частности YT, потоковую обработку и логирование. Есть даже лекция про построение своего первого Map Reduce и даже есть немного про графовое DWH!

5️⃣AB week - тут еще дополнительная инфа о современных методах анализа, включая бутстрап, линеаризацию и CUPED. Также пропроводить А/В‑тесты, их анализ и формулировку бизнес‑решений.

К сожалению из курсов в открытом доступе есть только древние материалы, но я их все же приложу. И в первую очередь рекомендую пробежаться по гитхабу, потому что там хотя бы можно потыкать презентации и код из свежих курсов.

▫️Ссылка на гитхаб с курсами ШАДа

+ дополнительно к этому можно поискать в репозиториях гитхаба в целом по ключевым словам, например "shad", потому что там может вылезти материалы с чьего-нибудь курса

Из выложенных когда-то курсов я нашел саму базу, и посмотрите как давно это было:

▫️Машинное обучение от Константина Воронцова
▫️Глубокое обучение с Виктором Лемпицким
▫️Алгоритмы с Максимом Бабенко

Если у вас есть желание погрузиться в эту атмосферу и послушать довольно потные курсы, то это ок. Но вот например по сравнению со свежей информацией по интенсивам, здесь довольно много моментов, которые могли устраеть (хотя алгоритмы не устареют никогда!). Короче, на свой страх и риск, но я бы рекомендовал слушать свежие курсы, потому что там современный взгляд.

Тут у нас за один год в индустрии происходит столько всего, что в голову еле умещается, а прикиньте как потом это все еще нагонять

▫️Все же докину еще интересную подборку (не относится к ШАДу) в виде Базы Знаний от Яндекс Образования

Надеюсь для вас нашлось что-то полезное, кидайте в коменты еще интересные открытые курсы ШАДа, по возможности дополню пост.

P.S. Намеренно не докинул тренировки по алгоритмам от Яндекса, потому стотинка кажется, что это не ШАД, но по ним сделаем отдельную подборочку.

#ml #dl #database #algo #llm #cv #courses
Please open Telegram to view this post
VIEW IN TELEGRAM
19🔥8👍4
This media is not supported in your browser
VIEW IN TELEGRAM
❤‍🔥5🔥2😁2
Интересное что-то от ребят, кого я читаю v0.18

Предыдущий пост тут
Интересное что-то тут

Погнали по классике, но сегодня мне тоже слегка помогли:

1. Толя запостил топовую информацию со сравнением Pandas vs. Polars. Там на самом деле целая серия из трех постов 1, 2, 3, и это очень крутой и разносторонний анализ от практика. У меня прям руки зачесались потыкать поларс.

2. Антон нашел интересные ссылки, где галлюцинации чатгпт породили целое исследование. Интересное чтиво, рекомендую посмотреть комментарии, там прям с первого начинается огонь.

3. Илья поделился наблюдениями на своем опыте. А именно тем, о чем я вам постоянно говорю, и в постах, и даже в выступлениях - не надо все ждать момента, когда все будет идеально заботано, надо выучить некоторый минимум для собесов и уже идти скорее набирать опыт на практике!

4. Наш Макс наконец открыл для себя growth.design и поделился интересными ссылочками оттуда. Как вы знаете, ссылочки я очень люблю, а еще люблю годную информацию - тут вышло 2 в одном, поэтому неплохо. Там еще до этого был неплохой пост про визибилити, его тоже рекомендую посмотреть

5. Гриша разобрал очень актуальную статью от коллег из Apple про ризонинг моделей. Тут я спойлерить не буду, рекомендую хотя бы пробежаться. Но это того стоит, хотя что там говорить - крутые статьи выходят почти каждую неделю, успевай хотя бы прочесть!

С последними двумя пунктами мне помогли коллеги из сообщества Хи-хи квадрат, где с основателем Владимиром мы познакомились на конференции AHA’25 (к слову о том, почему стоит ходить на конференции - нетворкаться). Там я собрал похожий пост, но уже из того, что накидали ребята. Вообще на самом деле топ, когда у тебя появляются единомышленники и помогают с некоторой информацией - в принципе это и происходит в чатике каждый день, столько инфы, что я даже читать не успеваю. Хотя по возможности врываюсь в обсуждения!

P.S. Был удивлен, когда увидел много знакомых и блогеров в чатике

#interesting
❤‍🔥8👍321🔥1
Пространственные признаки для линейной регрессии и катбуста

Допустим, мы прочитали пост с задачами в геоаналитике (либо этот) и даже пробежались по комментариям. И приняли решение затащить какую-либо задачку с использованием машинного обучения. У нас тут важна работа с координатами, иначе смысл тут применять геоаналитику?

И если мы например используем kNN, то координаты можно подавать в чистом виде, но нужно помнить о нюансах их использования.

С другой стороны, когда мы используем чуть более сложные модельки, мы можем столкнуться с тем, что просто координаты мы в них засунуть не можем (технически можем и технически даже что-то заработает), так как есть риск недополучить всю возможную пользу.

Какие нюансы:

1️⃣Нелинейная корреляция/зависимость - цена квадратного метра в Москве не зависит линейно от lat и lon. Скорее, она зависит от близости к центру, метро, паркам, престижности района – и представьте, как всё это очень сложно выучить через долготу и широту. Линейная регрессия тут точно не затащит, но у катбуста хотя бы есть шансы. Но если мы например сделаем некоторую предобработку признаков и докинем инфу о наличии тех же объектов через координаты, то это очень упростит жизнь моделькам.

2️⃣Пространственная автокорреляция - объекты, расположенные близко друг к другу, обычно более похожи (например, цены квадратного метра в соседних домах или ЖК). Когда kNN это может учесть через близость, линейная регрессия так просто это не выучит, ДУШНИЛА МОД ОН причем остатки будут пространственно скоррелированы, что нарушает её предпосылки ДУШНИЛА МОД ОФФ. Опять же, через подготовку признаков (хотя бы посчитать расстояние), мы сможем это учесть.

3️⃣Интерпретируемость - здесь я думаю для всех очевидно, что бизнесу будет довольно сложно объяснить физический смысл у коэффициента при широте или долготе. "Чем мы севернее, тем ...". Важна не сама координата точки, а что ее окружает.

Что можно использовать как фичи:

1️⃣UTM-проекция возможно нам не пригодится, но давайте просто повторим:

▫️Условно делаем преобразование lat, lon в метры в x,y через разные библиотечки
▫️Можно также сделать преобразования над координатами - что-то типа X^2, Y^2, X*Y.

2️⃣Расстояния до ключевых объектов (Points of Interest - POI)

▫️Расстояние до ближайшего метро, парка, школы, ТЦ, центра города
▫️Используем Haversine (для lat, lon) или Евклидово (для UTM)
▫️Можно взять не только до ближайшего, но и до 2-го, 3-го ближайшего, или среднее расстояние до N ближайших (если любите упороться)

3️⃣Плотность и количество объектов в радиусе/полигоне

▫️Сколько кафе/банкоматов/остановок в радиусе 500м/полигоне
▫️Средняя плотность населения в полигоне

4️⃣Характеристики ближайших соседей (не kNN, а именно контекст)

▫️Средняя цена объектов в радиусе X км
▫️Тип застройки у ближайших зданий

5️⃣Категориальные признаки (база, но давайте повторим)

▫️Название района, административный округ
▫️Зона по генплану (жилая, промышленная, рекреационная).
▫️Для LR можно использовать OHE или MTE, для CatBoost просто прокидываем категориальные данные как есть (главное не забыть их указать для модели)

6️⃣Комбинация признаков и Feature Scaling для линейной регрессии

▫️Например, берем перемножения признаков как новую фичу = расстояние_до_метро * расстояние_до_тц
▫️Все числовые признаки приводим к одному масштабу через StandardScaler или MinMaxScaler

Не забываем:

1️⃣Пространственная кросс-валидация

▫️Данные нужно бить на фолды пространственно (по регионам), чтобы избежать утечки из-за пространственной автокорреляции
▫️Допустим, GroupKFold по ID района/квадрата

2️⃣Data Leak

▫️Особенно аккуратно с фичами, основанными на целевой переменной
▫️Всегда топлю за проверки, чтобы для каждой точки в трейне мы использовали информацию только из прошлого или из объектов, которые не зависят от её собственной целевой переменной

Помним, и для линейной регрессии, и для CatBoost в геоаналитике и вообще всегда очень важна подготовка признаков. Так как lat, lon в чистом виде может не взлететь - поэтому давайте заниматься генерацией признаков!

Ну и дальше улучшать модели

#ml #geoanalytics
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥6👍3
2025/12/04 05:16:35
Back to Top
HTML Embed Code: