Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Дюжина советов по работе с командой - Секция Career - Data Fest 2024
Обсуждение доклада Ильи Алтухова, руководителя группы экспериментальных технологий, AI VK

В секции Карьера на Data Fest в этом году было два блока докладов: взгляд со стороны работника/кандидата, и - со стороны работодателя. Первый блок мы обсудили в трех постах выше, а теперь переходим к следующему.

Первый доклад со стороны работодателя - от Ильи Алтухова - про полезные советы и инструменты работы с командой.

Илья поделился своими находками, полученными за почти 10 лет опыта работы тимлидом data science команд. Предложил практические рекомендации, которые можно применять в работе. Обсудили темы: с чего начать тимлидство, как повысить эффективность поиска специалистов в команду, как спланировать рост компетенций в команде, как наладить коммуникацию и работу с ОС, можно ли ходить в отпуск и не работать, работа с вовлеченностью команды.

Презентацию доклада можно найти здесь, видеозапись - тут.

Илья с нами и готов ответить в треде на любые ваши вопросы по теме доклада.

А какие инструменты используете вы в работе с командой? Что помогает вам в руководстве командой, или что нравится вам в том, как организует работу команды ваш лид?

***

Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:

- Career
от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06

Ваш @Reliable ML

#tech #business #datafest2024 #career
Личный опыт: построить дата-команду в сформировавшемся коллективе - Секция Career - Data Fest 2024
Обсуждение доклада Артема Каледина, team lead-а команды геоаналитики в билайне

Завершаем обсуждение докладов в секции Карьера на Data Fest вторым докладом, отражающим взгляд со стороны работодателя - а именно, тимлида, который приходит в давно работающую по своим практикам команду, и которому необходимо значительно перестроить существующие процессы.

В своем докладе Артем Каледин рассказал о личном опыте сильной перестройки работы команды и построения новых практик, влияющих на развитие геоаналитики в билайне. Рассказал также о своем росте в тимлида, радостях и сложностях этого перехода.

Презентацию доклада можно найти здесь, видеозапись - тут.

Артем готов ответить в треде на любые ваши вопросы по теме доклада.

Был ли у вас подобный опыт перестройки сформировавшихся коллективов? Как преодолевали сложности?
О жизни и росте в тимлиды мы тоже всегда готовы потереть!

***

Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:

- Career
от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06

Ваш @Reliable ML

#tech #business #datafest2024 #career
Дата-стратегия в крупной группе компаний - Секция Data Strategy - Data Fest 2024
Обсуждение доклада Виктора Кантора, ex-CDO MTS, founder MLinside

В этом году на Data Fest мы с Димой провели экспериментальную секцию - Data Strategy. Тем самым расширили охват тем, обсуждаемых на фесте, добавив к data science проблематике историю с построением и развитием команд данных.

Опыт считаем успешным - запрос стратегического взгляда на дата-офисы оказался большим. Секция собрала аншлаг участников и после каждого доклада были интереснейшие обсуждения, которые потом продолжились на афтепати. Поэтому предлагаем дообсуждать недообсужденное с каждым из наших прекрасных CDO - авторов докладов.

Первым на секции выступил Виктор Кантор, у которого есть замечательный тг-канал Kantor.AI, а также школа по ML - MLinside. Витя в своем докладе задал провокационный вопрос: а нужна ли вообще стратегия по данным компании? И далее, с помощью интересных кейсов и примеров раскрыл пользу наличия стратегии, а также наиболее важные аспекты, которые там должны быть продуманы.

Презентацию доклада можно найти здесь, видеозапись - тут.

Витя готов ответить в треде на ваши вопросы по теме доклада.

Есть ли в вашей команде/компании дата-стратегия? Насколько, на ваш взгляд, она полезна?

***

Полные материалы секций Reliable ML на Data Fest 2024 можно посмотреть на сайте ODS.ai:

- Career от 25.05
- Data Strategy от 25.05
- Reliable ML от 02.06

Ваш @Reliable ML

#tech #business #datafest2024 #career
Канал на RUTUBE

Собрали все видео на rutub-канале https://rutube.ru/channel/42225198/

Давно хотели завести канал, на котором были бы собраны лекции и доклады по теме ReliableML. Видео были разбросаны по разным каналам, и блокировка Youtube заставила наконец-то собрать их вместе.

Вопрос к читателям: нужно ли выгрузить туда еще и материалы митапов, секций датафеста?

Ваш @Reliable ML

#video
Reliable ML pinned «Канал на RUTUBE Собрали все видео на rutub-канале https://rutube.ru/channel/42225198/ Давно хотели завести канал, на котором были бы собраны лекции и доклады по теме ReliableML. Видео были разбросаны по разным каналам, и блокировка Youtube заставила наконец…»
Дата-стратегия в крупной группе компаний - Секция Data Strategy - Data Fest 2024
Обсуждение #2 - доклад Виктора Кантора, ex-CDO MTS, founder MLinside

Как вы могли заметить, наши публикации докладов с Data Fest 2024 несколько притормозились с середины августа. А все почему? Потому что много работы очень много работы Виктор Кантор, многоуважаемый докладчик секции Data Strategy, дал нам справедливый фидбек о том, что публикации обсуждений выглядят однообразно и их не особо хочется обсуждать.

Мы покумекали, согласились, и решили учесть фидбек Вити. И попробовать обсуждения в другом формате - делиться с вами своими мыслями о содержании доклада, и задавать вопросы вместе с вами.

И начнем мы с доклада Вити 😈

Ключевым слайдом доклада мне показался слайд про акценты дата стратегии. Но к этим акцентам у нас есть комменты. Пройдемся по пунктам.

1. Сбор и хранение данных. Если группа достаточно большая, а данных достаточно много, то важно также учитывать, какие данные нам не нужны, и когда и как от них избавляться. Сюда я бы также добавила безжалостное ревью архитектуры данных и целевого технологического стека, и избавление от legacy и технического долга.

2. Монетизация. Все здорово, только важно, чтобы ответы на вопросы были привязаны к стратегии самой компании. То, в каких сферах мы развиваем ML внутри и вне должно быть нужно самой компании и вписываться в ее вектор развития.

3. Качество данных. Одного наличия данных мало, нужно думать о качестве. Но и качества данных мало, они чаще всего не работают без окружения полноценными процессами data governance. Само качество данных состоит из мониторинга с инфраструктурой ("научиться автоматически выявлять ошибки") и процессов решения инцидентов, найденных с помощью мониторинга ("исправить ошибки"). Без решения проблем - мониторинг сам по себе - не имеет смысла. А когда мы ступаем на тропу процессов... то тут и выясняется, что чтобы они появились и в итоге заработали, нам нужно подумать о миллионе аспектов владения данными, ответственности и пр. Это и составляет data governance.

4. Реализация "сверху вниз": KPI, индексы, поручения руководства. Тут и добавить нечего, это очень нужно. Особенно на первых порах, когда закладывается фундамент цифровой трансформации. Правда. это не значит, что дата команде нужно сидеть и ждать безоговорочной поддержки руководства. Чтобы она была, CDO и его команде нужно работать: объяснять и аргументировать.

5. Реализация "снизу вверх". Если под наполнением компании data people Витя имеет в виду не только найм дата команды, но и обращение бизнес стейкхолдеров в data people, то полностью разделяем. В компании может быть много людей, но если они не стремятся поделиться знаниями и научить своим ценностям бизнес-стейкхолдеров, то это будет приводить к обособлению дата-людей и накоплению непонимания друг друга. Есть мы, кто делает реальное дело, общается с клиентом и зарабатывает деньги. И есть дата-ребята, которые делают какую-то свою математику и дашборды, и зачем-то долго копаются в данных. Настоящее value для компании достигается через взаимопонимание и партнерство.

А какие акценты добавили бы вы в стратегию по данным?

Доклад: YouTube | RUTube | ODS.ai | Преза

Ваш @Reliable ML

#tech #business #datafest2024 #data_strategy
В любой ситуации - оставаться хорошим человеком
Немного о важном

Недавно обсудили с Димой, что можно писать в канале и просто о том, что важно и что в голове в последнюю, например, неделю или месяц. А не готовить что-то сложное и нагруженное ночами и долго, как мы любим.

Попробуем начать)

Сегодня хочется поговорить о том, что все мы с вами разные и работа у нас разная, и таланты, и интересы. И темпераменты тоже.

А еще у каждого из нас бывают моменты, когда тяжело, не получается, когда кто-то выбесил, работа/коллеги/etc. неприкольные, хочется все бросить, и еще много чего сделать.

Если мы в сложные моменты можем остаться верными себе и сделать что-то, что ситуацию изменит - это прекрасно.

Если же мы при этом отпускаем эмоции из под контроля: устраиваем скандал, делаем/говорим гадости, обманываем, то в сумме в долгосроке нам же будет хуже.

На любом рабочем месте, в любой жизненной ситуации - вы создаёте себя. И это ваша ответственность и выбор, как поступать. Совокупность ваших поступков на каждом рабочем месте/мероприятии - это ваша репутация и бренд, который с каждым шагом по карьерной лестнице будет иметь всё больше значения.

Хорошие поступки возвращаются потом самыми неожиданными путями, поддержкой, помощью и теплотой. Плохие - в лучшем случае не возвращаются.

Желаем вам оставаться верными себе. И к поступкам подходить осознанно.

Ваш @Reliable ML

#мысль_месяца #business
Экономика дата офиса - Секция Data Strategy - Data Fest 2024
Доклад Павла Мягких, ex-CDO Gazprom ID, ex-директор Big Data Lenta

На Data Fest 2024 в нашей секции про стратегию данных выступил Павел Мягких - с непростой темой про экономику дата офиса.

Каждый менеджер и сотрудник дата-команды в большой и не очень корпорации знает, что бигдата и AI - это стильно, модно и молодежно. И, кажется, что сейчас каждый знает, что это еще и очень дорого.

Но далеко не каждый готов задумываться, а уж тем более, считать денежное value дата-продуктов, и, следовательно, окупаемость дата офиса. А не задумываться можно, как мы уже с вами как-то обсуждали, только когда с общемировой конъюнктурой все норм. То есть, сейчас прям самое время задумываться.

А еще более не каждый, или даже совсем редкий менеджер, готов делать это правильно, и инвестировать в это "правильно" ресурсы и время.

В докладе Паша рассказал про важность расчета окупаемости дата офиса, про общую логику её расчета, а также про категории проектов и их приоритезацию. При этом центровой темой как во время доклада, так и после него, стала тема про "правильный" расчет value дата-продуктов. Или, проще говоря, про АБ-тестирование (занудная ремарка: мы тут, конечно, немного упрощаем и в целом с вами знаем, что оценка эффектов описывается далеко не только АБ). При обсуждении доклада CDO так разошлись, что секция про дата стратегию чуть не стала митапом про АБ-тестирование.

Посыл доклада - надо инвестировать в построение методики АБ-тестирования и использовать его не только для проектов Big Data, но и вообще для инвестпроектов компании (где применимо). Ибо это способствует не только более корректному пониманию того, куда инвестировать, но еще и исправлению совокупной оценки эффекта инвестиционного потока с космической, на близкую к правде.

Дискуссию вызвал вопрос - а точно ли совокупный эффект всех АБ покажет правду, ведь тесты (чаще всего) не учитывают затухание эффекта в долгосрочном периоде? Да и Валера недавно поднимал важную тему про совокупный эффект АБ.

А как считаете вы? Стоит ли вписывать АБ-тестирование в жизнь компании, и где нужно остановиться?

Доклад: YouTube | RUTube | ODS.ai

Ваш @Reliable ML

#tech #business #datafest2024 #data_strategy
Советы для CDO - Part #1
Обзор книги Carruthers, Jackson - The Chief Data Officer's Playbook

Прочитала CDO Playbook и хочу поделиться моментами, которые показались интересными.

В целом в книге ну очень высокая доля воды относительно полезной информации, поэтому обзор может быть полезным :-)

Итак, что - по мнению авторов - важно понимать, если вы CDO.

Общее - про выстраивание работы в целом:

- Не бывает много коммуникации: прогресс, фидбек, объяснения. Ты не обязательно должен делать работу в совершенстве, но все должны быть в курсе о том, что ты делаешь.

- Первое дело в работе CDO - понять бизнес. При проведении интервью спрашивать не про дату, а про проблемы в бизнесе. И, отталкиваясь от них, предлагать решения на основе данных.

- Для успеха надо вовлекать людей в активности, и особенно искать евангелистов своих идей в бизнесе. Много маленьких поддерживающих армий лучше одной большой. Это становится очень важным при внедрении изменений: одна коммуникация на всех про новые правила не приведёт к результату. Много индивидуальных коммуникаций и продажи своих идей с учётом особенностей и интересов стейкхолдеров даёт сильно больше результата. И развивается и помогает в долгосрочном периоде.

- Важно не увлекаться the empire-building trap. Дело, в первую очередь, не только в том, сколько у вас людей, а в том, какое value вы можете принести.

- Лучше недокоммититься и принести больше, чем наоборот. Это должно быть в основе. Такая вот непреложная истина 😄

Про роль CDO и немного про дата офисы:

- Авторы выделяют два основных типа CDO с точки зрения их роли в компании: first CDO и second CDO. FCDO это risk-averse чувак (фундамент пирамиды), а вот SCDO - это value-add чувак (монетизация данных). Первый должен выстроить технологический и архитектурный фундамент + запустить процессы data governance, но и не забыть про квик вины, ибо ожиданий у бизнеса от роли будет много, так как инвестируют в неё тоже много. Второй CDO - больше рискует и очень плотно общается с бизнесом, а бизнес по идее уже понимает на опыте первого CDO, что от улучшения технологий можно подвинуть границы возможного.

- Нужно понимать, какого типа ты CDO, какие навыки в тебе сильнее. Как минимум, технические (и какие), навыки управленца, бизнес-ориентированности и понимания бизнес-процессов. Слабые стороны нужно подкреплять союзниками и наймом людей. И постоянно анализировать, всё ли ок. Нельзя предавать себя. Стоит понимать, кто нужен организации, и идти туда, где будут применяться твои сильные стороны.

- При централизованной структуре чаще всего бизнес теряет оунершип над развитием дата дривен проектов. Считает, что дата должна все делать сама, а так не бывает.

- Data literacy. Обязательно должна быть база по данным у всех - понимание данных, способность их правильно понимать, уметь интерпретировать и аргументировать свою точку зрения по ним. В компании чаще всего есть значительный слой data unaware людей. В них кроется золотая жила, CDO нужно работать с ними. Они могут дать много value и идей использования данных, когда получат базовый уровень грамотности данных. При этом нужно учитывать, какой уровень грамотности нужен на каких уровнях: операционная деятельность, тактическое принятие решений, стратегическое принятие решений. На операционном важно уметь быть информированным, уметь читать данные, т.е. иметь базовые навыки. На тактическом и стратегическом нужны более индивидуальные программы обучения, плюс обязательно совместная работа с CDO над вовлеченностью к работе с данными - зачем мы это делаем, что можем классного получить.
Важно мониторить и работать над тем, чтобы на всех уровнях развивать нужную степень грамотности данных, и их использования. Плохо, когда на стратуровень поступают классные выверенные данные, но не используются, и плохо, если используются невыверенные.

Вот такие заметки. Будем рады обсудить в комментариях ваши мысли.

Во второй части обзора напишу про рекомендации для бизнеса - как найти себе подходящего CDO.

Ваш @Reliable ML

#business #обзор_книги #cdo
Как нанять хорошего CDO - Part #2
Обзор книги Carruthers, Jackson - The Chief Data Officer's Playbook - Part #1 здесь

Продолжаю делиться моментами, которые показались интересными в книге CDO Playbook.

В книге есть отдельная большая глава с рекомендациями для бизнеса о том, как нанять хорошего CDO и о том, как ему помочь, чтобы все получилось.

Кого надо нанимать

- Нанимайте специалиста в области данных. Не generalist people.

- Гипер важный навык - способность к переговорам с очень большим набором разных стейкхолдеров. Но первично - быть специалистом.

- Надо определиться, какой тип CDO нужен, по типам, выделяемым в книге - first CDO и second CDO (обсуждали в первой части обзора). Зависит от этапа зрелости компании в части работы с данными. Для каждого из типов CDO важны свой набор техскиллов, опыт и мотивация.

- Подумайте, чем вы можете мотивировать хорошего CDO для работы с вами. Что может повлиять на его мотивацию: оргсетап и близость к CEO (будет подробнее дальше), насколько интересные у вас данные и насколько масштабны проблемы для решения и вообще, что вы хотите сделать с помощью цифровой трансформации.

- Состояние данных может быть настолько плохим, что вам сложно будет кого то найти, или, наоборот, слишком хорошим. Поэтому во всех случаях не стоит затягивать с решением о сетапе роли CDO.

- Чтобы хорошо нанять, важно привлечь тех, кто разбирается. И вообще, рынок жесткий, сложно нанять. Скорее всего, вам точно нужна будет помощь. От того, кто поможет сформулировать описание роли и условия. И кто знает людей на рынке. Авторы книги развивают свой консалтинговый бизнес, разумеется.

Как засетапить CDO

- Очень важно наделить CDO достаточным уровнем полномочий для кросс доменных инициатив, установки политик и стандартов. Часто проблемы с внедрением дата стратегии и движением компании в дата дривен историю случаются из за слишком джуниорного сетапа CDO.

- Чем больше уровней между CEO, Правлением и CDO, тем меньше эффекта от роли будет. И нужно быть уверенным, что CDO репортит тому, у кого реально есть данные. Если CDO находится в департаменте, который только получает, но не производит данные - можно получить много проблем, связанных с оторванностью как CDO, так и его руководителя от реальных проблем.

- Аллергия на сетап внутри IT структуры. Важно разнести, когда пихают дату в ИТ получается не очень. Тут прям у авторов книги аллергия и явно болезненный опыт, связанный с взаимоотношением CDO и IT. Неприятие сквозит через всю книгу про то, что IT и работа с данными - это очень разное и это нельзя смешивать управленчески ни за что и никогда. Хотя стоит отметить, что по статистике сетап CDO внутри IT-департаментов остается пока достаточно распространенным вариантом. По последним доступным обзорам у около 25% компаний CDO размещен под ИТ-директором, а у около 35% компаний - в бизнес-единицах.

Как помочь вашему CDO

- Если вы наняли своего первого CDO, то ему очень важна поддержка во внедрении вижена и дата стратегии. И эта поддержка должна быть всем видна. Engagement бизнеса в дата трансформацию - это в первую очередь ответственность CEO/менеджера. Иначе большой риск быстрого выгорания и ухода CDO. И замену по опыту найти очень трудно.

- Не нужно обделять вниманием важность избавления от легаси дата продуктов и автоматизации ручной отчетности. Важно выделять на это время, чтобы не стопорить дата офис в будущем.

- Дата трансформация это долго и ресурсозатратно. Нужно быть к этому готовым, прежде чем идешь в эту историю. Нужно быть готовым к go slow to speed up подходу (особенно в начале пути), не пытаться съесть слона целиком.

- Дайте CDO свободу делать свою работу. Помогайте найти небольшие кейсы и маленькие победы, которые станут первыми шагами на пути к трансформации бизнеса.

- Почти в каждом пункте подчеркивается важность поддержки. ПОЛНОЙ поддержки. Так капслоком и написано, видно, что выстрадано.

Вот такие вот рекомендации. А что откликается вам?

Ваш @Reliable ML

#business #обзор_книги #cdo
Карта типов CDO
К обзору книги Carruthers, Jackson - The Chief Data Officer's Playbook

Хочется дополнить наш недавний обзор книги про CDO моей любимой картой архетипов дата лидеров.

Оригинальная статья была опубликована около 5 лет назад компанией Informatica, хотя недавно ее почему-то удалили. Однако у меня ходы остались записаны! Хочу поделиться с вами)

По концепту все Chief Data Officers делятся на 4 категории - по их самым сильным сторонам.

- Digital Innovators. Ключевые навыки дата лидера - в знании data science/ML/AI технологий. Такой CDO сможет затащить поиск перспективных идей, быстрые эксперименты и исследования, внедрение новых решений. Как правило, эти лидеры вырастают из дата саентистов.

- Analytics Champions. Фокус - на построении процессов для надежной отчетности: развитие BI-инструментов и дашбордов, настройка качественных end2end пайплайнов, включая оптимизацию работы отчетов в рамках BI и витрин данных под ними. Чтобы все работало четко, быстро, не ломалось - давало бизнесу возможность прозрачно видеть нужные данные по процессам и принимать решения. Такой тип лидера обычно вырастает из дата аналитика.

- Governance Circus. Ключевые скиллы и фокус внимания - на качестве данных, системном развитии архитектуры данных, процессов и инструментов управления ими и обеспечении их безопасности. Этот тип дата лидера вырастает из дата архитекторов, системных аналитиков, реже - из дата инженеров.

- Operational Optimizers. Основной бекграунд - в развитии инфраструктуры и технических процессов работы с данными. Это гуру в развитии платформенных сервисов и автоматизации всех этапов работы с данными: от сбора и интеграций, до деплоя отчетности и ML-моделей. Такой тип обычно вырастает из дата инженеров.

Верхнеуровнево, два правых квадранта - больше про монетизацию данных, а два левых - про их подготовку для того, чтобы их можно было использовать. В разные моменты времени, для разных отраслей и этапов развития компании - ей могут требоваться различные типы CDO.

По моему опыту, у всех CDO сильной группой навыков будет один, максимум два квадранта. Остальное может быть также закрыто, но уже как вторичная группа - с разной степенью погруженности и возможности управлять процессом.

Об этой картинке рекомендую задумываться, и когда принимаете решение о найме и думаете о профиле нужного вам специалиста, и если вы CDO/дата-лид, и собираете свою команду.

Ваш @Reliable ML

#business #cdo
Секция Data Strategy на Data Fest 2024
Обзор докладов секции и ссылки на материалы

В этом году на Data Fest мы провели аж три секции: Reliable ML (куда же без нее), Career и Data Strategy.

И одна из них была экспериментальной - Data Strategy [Youtube, Rutube]. Мы решили попробовать собрать CDO различных компаний - рассказать про проблематику и особенности работы со стратегией по данным. А заодно дать площадку для обсуждения общих болей и вопросов выхода из них. (На самом деле мне нужна была пара советов, вот и придумала секцию. Но это уже совсем другая история 😊).

Для Data Fest - это не совсем обычная тема, поскольку ключевой акцент в нем всегда оставался за data science. А стратегия по данным охватывает все этапы работы с ними, включая то, чему обычно на data science конференциях не уделяется большого внимания.

Стратегия по данным отвечает на вопрос, как нужно организовать работу с данными в организации в целом, чтобы была возможность их в итоге монетизировать. Для этого нужно данные качественно собрать, организовать их хранение, обеспечить качество (на уровне как инфры, так и процессов), а затем организовать в витрины, пригодные для применения методов продвинутой аналитики.

Так вот было невероятно приятно осознать, насколько аудитория на самом деле ждала появления таких тем! Насколько у многих наболели вопросы качественной организации всей цепочки работы с данными. На секции был аншлаг, успели обсудить кучу вопросов как по докладам, так и по общим болям. Сложно было только разойтись)

Секция получилась глубокой и целостной. Каждый докладчик закрыл по важному блоку, который неизбежно стоит продумывать для получения работающей стратегии по данным.

- Виктор Кантор [Youtube, Rutube] рассказал о том, почему вообще нужна стратегия по данным, и как ее наполнить конкретными кейсами монетизации с помощью инструментов продвинутой аналитики.

- Павел Мягких [Youtube, Rutube] углубил наполнение стратегии кейсами и виженом, куда двигаться - раскрыв тему про расчет экономики этих кейсов: как в ней разобраться, и как посчитать. Ибо не все то золото, что ML/AI/LLM.

- Александр Толмачев [Youtube, Rutube] погрузил аудиторию в техническую сторону вопроса - в организацию сквозной инфры и инструментария работы дата аналитиков, дата саентистов и дата инженеров. Это вызвало большое понимание и внимание зала - многие успели испытать сложности взаимодействия команд и боли от неоптимальной организации процессов и сервисов. А Саша предложил понятный пример унифицированных процессов и инфры.

- Ирина Голощапова [Youtube, Rutube] объединила предыдущие выступления, предложив общий фрейм для работы над стратегией по данным. В докладе я постаралась дать структуру стратегии по данным, обозначив ее критические блоки и объяснив логику работы над ними - и то, как они собираются в итоге в единую систему. По ходу доклада мы рассмотрели несколько примеров работы над блоками стратегии и лайфхаки, которые мне кажутся полезными. Сам фрейм хотелось бы в будущем выложить в open source и наполнять сообществом.

Расскажите, чем вам показалась полезной секция по дата стратегии? И о чем хотелось бы поговорить с CDO в 2025 году?

Ваш @Reliable ML

#tech #business #datafest2024 #data_strategy
C Новым 2025 Годом вас, дорогие друзья!

Пусть он будет легким, но при этом вдумчивым и богатым на интересные и положительные события! Пусть подарит вам вдохновение творить. Даст возможность и силы заниматься тем, от чего вы кайфуете!

В прошедшем 2024 году мы с Димой вели телеграм-канал не очень активно - не всегда удавалось балансировать его с другими задачами. Но все же затащили 31 пост, попробовав новые форматы: обзоры книг, обсуждения докладов, посты с мыслями на общие/управленческие темы. А еще продолжили организаторскую тему: провели аж 3х секций на Data Fest: Reliable ML, Career и Data Strategy, собрали митап по машинному обучению в физике и провели секцию по ML System Design на Data Fusion 2024. И, конечно же, продолжили дополнять наш репозиторий по ML System Design новыми примерами документов.

Планов и новых мыслей на 2025 у нас множество - будем стараться, чтобы они стали реальностью!
Спасибо вам за поддержку и вовлеченность в ответ на наши идеи - это очень вдохновляет.
Только вперед!

И пусть в Новом Году в ваших стратегиях внедрения AI стрелки идут в правильном направлении!

Ваш @Reliable ML

#happy_new_year #reliable_ml
Секция Reliable ML на Data Fest 2024
Обзор докладов секции и ссылки на материалы

На Data Fest 2024 секция Reliable ML получилась стихийно. Мы с Димой планировали сделать только две офлайн секции: Data Strategy и Career. Но в первые же дни call for papers мы получили много хороших предложений докладов для нашей традиционной секции - Reliable ML. И поняли, что от судьбы не уйти.

Секция получилась классная и широкая по охвату. Ведь, чтобы ML был Reliable - и доходил до прода и положительного эффекта - думать нужно о каждом этапе работы над моделью.

- Артем Дуплинский [Youtube] [Rutube] рассказал вводный доклад про причинно-следственный анализ. На примерах показал, почему causal inference полезен для аналитических проектов, и объяснил, что означают базовые термины.

- Александр Ченцов [Youtube] [Rutube] раскрыл тему графового анализа для выявления причинно-следственных зависимостей на больших данных - для более продвинутых пользователей causal inference методов.

- Евгений Смирнов [Youtube] [Rutube] поделился видением и советами по выбору проектов в ML для успешного их внедрения в будущем. Важно грамотно оценивать экономическую целесообразность проектов, готовность инфраструктуры и интеграций, а также готовность бизнес-процессов.

- Андрей Лукьяненко [Youtube] [Rutube] рассказал об опыте построения антифрод ML-моделей на этапе предавторизации для заказа такси в компании Careem.

- Данил Картушев [Youtube] [Rutube] поделился опытом использования шаблона ML System Design Doc от Reliable ML для проекта по созданию бота по поиску нужных материалов в тг-каналах - PostFinder. Классно, что Данил не только описал свой пример применения дизайн-дока, но и предложил ценные дополнения к шаблону (Customer Journey Map и User Story Map), а также опубликовал свой дизайн-документ для PostFinder в открытый доступ.

- Иван Комаров [Youtube] [Rutube] показал возможности применения OLS-регрессии для АБ-тестирования - с детальным разбором примеров. Код доступен в презентации.

- Александр Калинин [Youtube] [Rutube] рассказал про метод Байесовской сыворотки правды (BTS) для разметки данных (когда не имеем в разметке объективной правды/no ground truth).

Пора изучать доклады и думать о том, о чем хотим поговорить в 2025 году!

Ваш @Reliable ML

#tech #business #datafest2024 #reliable_ml
Секция Career на Data Fest 2024
Обзор докладов секции и ссылки на материалы

Публикуем в одном посте доклады секции по карьере, которую мы провели в мае 2024 г.

В секции было 2 блока: для сотрудников - про построение карьеры, развитие и трудоустройство, и для руководителей - лайфхаки про работу с командой от тимлидов.

- Ирина Голощапова [Youtube] [Rutube] рассказала про ключевые роли в работе с данными. Рассмотрели суть работы каждой роли, определили главные навыки, которые их отличают, узнали о том, какие для них есть карьерные треки, а также поговорили о том, над какими навыками стоит работать, чтобы расти по выбранному треку.

- Евгений Смирнов [Youtube] [Rutube] предложил десять вопросов, которые нужно задать перед трудоустройством кандидату на работу в сфере data science (и не только). То есть, о чем - кроме размера заработной платы - стоит спросить работодателя на этапе собеседований.

- Наталья Ковальчук [Youtube] [Rutube] рассказала о плюсах и минусах мягкого карьерного перехода из геологических исследований в data science, а также детально раскрыла особенности применения Data Science в нефтегазовой отрасли.

- Илья Алтухов [Youtube] [Rutube] поделился своими находками, полученными за почти 10 лет опыта работы тимлидом data science команд. Предложил практические рекомендации, которые можно применять в работе. Обсудили темы: с чего начать тимлидство, как повысить эффективность поиска специалистов в команду, как спланировать рост компетенций в команде, как наладить коммуникацию и работу с ОС, можно ли ходить в отпуск и не работать, как развивать вовлеченность команды.

- Артем Каледин [Youtube] [Rutube] рассказал о личном опыте сильной перестройки работы команды и построения новых практик, влияющих на развитие геоаналитики в билайне. Рассказал также о своем росте в тимлида, радостях и сложностях этого перехода.

Удачного вам карьерного пути в 2025 году!

Ваш @Reliable ML

#tech #business #datafest2024 #career
Data Ёлка 2024 - Итоги года от Reliable ML
О том, как мы праздновали ODS Новый Год 28 января 2025

Совсем недавно в офисе VK в Москве состоялась традиционная Data Ёлка 2024. Мы с Димой в этот раз тоже решили поделиться итогами года от Reliable ML.

У нас получилось два доклада:

- От Димы Колодезева - про hard-тренды 2024. Поговорили про conformal prediction, появление качественных материалов по causal inference в ML на русском (и вообще появление causal inference в ML!), прорыв в интерпретируемости трансформеров и больших языковых моделей, будущее мира на промптах и изоленте (стабилизацию вывода LLM в прод), а также антихрупкость в ML.

- От Иры Голощаповой - про полезные soft-фичи в управлении ML-разработкой. Обсудили важность того, чтобы не увлекаться шаблонами (да-да, даже дизайн-документами!), системно подходить к обучению дата-команд и бизнеса, погружаться в бизнес-процессы, для которых делаешь ML-решение, уметь брать на себя ответственность за результат, а также про то, что вдохновение - это тоже ответственность.

Будем рады, если материалы окажутся полезными для вас в этом году.

Прекрасного вам 2025го!

Ваш @Reliable ML

#tech #business #dataелка2024 #reliable_ml
Применение Generative AI в компаниях США
Обзор обзора - 2024: The State of Generative AI in the Enterprise

В декабре 2024 был опубликован обзор от фонда Menlo Ventures - про применение Generative AI моделей в корпорациях. Данные собраны с 600+ ИТ-руководителей компаний в США с 50+ сотрудниками - в октябре-ноябре 2024.

Cделали для вас краткий обзор этого обзора - того, что показалось интересным.

- Топ-5 сценариев применения GenAI в корпорациях: code generation, support chat-bots, enterprise search + retrieval, data extraction + transformation, meeting summarization. Ну и, конечно, все экспериментируют с агентами. В целом, ничего удивительного, но может быть полезно при приоритезации кейсов для вашей компании - в этих популярных сценариях LLM показывают себя пока наиболее успешно. Для каждой категории в статье приведены примеры успешных стартапов/решений со ссылками - наглядно и полезно.

- Закрытые модели все еще широко используются. Преобладает использование моделей с закрытым исходным кодом (81% компаний, основные решения - GPT от Open.AI и Claude от Anthropic). Открытые модели у себя разворачивает только 19% компаний. При этом на уровне компании обычно полноценно развивают около трех моделей, которые адаптируют под различные сценарии использования.

- О чем стоит подумать при внедрении. При покупке AI решений организации обращают внимание в основном на легкость вычисления ROI и учет специфики деятельности компании. Однако часто недооценивают на старте сложности внедрения моделей: технические интеграции, будущую поддержку и масштабирование. Топ причин разочарований в моделях: затраты на внедрение (26%), вопросы конфиденциальности данных (21%), неоправдавшиеся ожидания по ROI (18%), галлюцинации моделей (15%).

- Где внедрять. В среднем компании выделяют финансирование для разработки AI-решений во всех подразделениях. Наибольшая доля - у IT (22%). Возможно, что это за счет централизованного владения инфраструктурой, хотя напрямую это не написано. Второе и третье место у инженерных задач (19%) и клиентской поддержки (9%).

- От горизонтальных решений к вертикально-интегрированным приложениям для отдельных бизнес-областей. Если раньше решения были в основном про сервисы создания картинок и генерации текста, то в 2024 году - это полноценные приложения для конкретных задач в здравоохранении, юриспруденции, финансах и медиа:

- Для медицины это $500 млн инвестиций в решения по автоматизации клинических процессов: от ведения записей (Abridge, Ambience) до управления доходами (Adonis, Rivet).
- Юристы ($350 млн) используют GenAI для работы с большими объемами данных и автоматизации задач. Примеры: Everlaw (литигация), Harvey (проверка договоров и умный поиск), Garden (патенты и интеллектуальная собственность), и др.
- В финансах ($100 млн) выделяют стартапы вроде Numeric (автоматизация процессов бухучета), Arch (помогает собирать и агрегировать внешние данные о компаниях для управления инвестициями) и Norm AI (агентов, помогающих работать по комплаенс задачам: от сбора новых документов и рисков из внешних данных до помощи в проверке транзакций).
- В медиа ($100 млн) популярны как профессиональные студии (Runway), так и инструменты для независимых авторов (Descript, Captions).

Ваш @Reliable ML

#tech #business #reliable_ml
Reasoning vs. Instruct (GPT) models
Перевод: о различиях в применении Reasoning и GPT моделей

Решили сделать краткий перевод недавней статьи от Open.AI про различия в применении reasoning (o-series) и GPT-моделей. Тема горячая, иметь идеи на эту тему в понятном виде под рукой кажется полезным. Если текст наберет много лайков, будем и дальше публиковать подобные посты с тегом "перевод" - на актуальные темы.

Ключевые различия Instruct (GPT) vs. Reasoning LLM

Reasoning (в случае Open.AI - o-series) и привычные нам чат-модели или instruct-модели (в случае Open.AI - GPT) решают разные задачи и требуют разных подходов.

- Reasoning-модели - планировщики. Созданы для сложных задач, требующих глубокого анализа, стратегического планирования и работы с большими объемами неоднозначной информации. Они медленнее, но точнее Instruct LLM. Идеальны для областей, где важны точность и надежность: математика, наука, инженерия, финансы, юриспруденция.

- GPT-модели (и другие instruct-модели) - рабочие лошадки. Оптимизированы для быстрого выполнения четко определенных задач и подходят для случаев, где важны скорость и низкая стоимость. Меньше подходят для сложных, многошаговых задач.

Успешные кейсы использования Reasoning-моделей (на примере o-series)

- Работа с неоднозначными задачами. Модели задают уточняющие вопросы и обрабатывают сложные документы. Hebbia использует o1 для анализа сложных платежных ограничений в кредитных соглашениях.

- Поиск иголки в стоге сена. Модели находят важные детали в огромных объемах неструктурированной информации. Endex использовал o1 значимой информации в документах компании (контракты, договоры аренды, и проч.), которая может повлиять на сделку о ее покупке. Модель выявила важное положение о «смене контроля» в сносках: если бы компания была продана, ей пришлось бы выплатить кредит в размере $75 млн.

- Выявление взаимосвязей и выводов из сложносоставных данных. Модели находят связи между документами и делают выводы на основе контекста. Blue J улучшила производительность в 4 раза, используя o1 для налоговых исследований, когда нужно было прийти к логическим выводам, которые не были очевидны ни в одном отдельном документе. BlueFlame AI применила o1 для анализа влияния фандрайзинга на существующих акционеров - получив в итоге корректную расчетную таблицу на основе множества документов, на создание которых у финаналитиков ушло бы существенно больше времени.

- Многошаговое планирование. O-series выступает как «планировщик», разбивая задачи на шаги и делегируя их GPT для выполнения. Lindy.AI использует o1 для автоматизации рабочих процессов. Модель забирает информацию из календаря или эл. почты, а затем автоматически помогает пользователю планировать встречи, отправлять e-mail-ы, и др. Декомпозиция и планирование задач были полностью переключены на o1.

- Визуальный анализ. O1 лучше GPT-4o справляется с интерпретацией сложных изображений (графики, чертежи). SafetyKit достигла 88% точности в классификации изображений с помощью o1 - в задаче проверки комплаенс-рисков для миллионов товаров в Интернете, включая подделки ювелирных изделий класса люкс, исчезающие виды и контролируемые вещества.

- Рецензирование и улучшение кода. Модели эффективно анализируют код, находя ошибки, которые могут пропустить люди. CodeRabbit увеличил конверсию в 3 раза, перейдя на o-series для ревью кода - во многом за счет того, что o1 способен обнаруживать ошибки и несоответствия между множеством файлов в репозитории. Кроме того, o1 на голову выше GPT при помощи разработчикам в проектировании сложных систем.

- Оценка и бенчмаркинг. O-series используется для проверки качества ответов других моделей. Braintrust улучшила F1-оценку с 0.12 до 0.74, используя o1 для оценки ответов GPT-4o.

Для нас будет очень ценно, если в комментах вы напишете, насколько такой пост полезен.

Ваш @Reliable ML

#tech #business #перевод #reliable_ml #llm
Почему во времена AI-революции стоит быть осторожным?
Заметки на полях

Решила тут Ирина почитать последние актуальные книги по GenAI - и по внедрению в прод, и про разное менеджерско-стратегическое. Нашлось как всякое интересное (могу потом сделать обзор, если интересно), так и очень интересное.

Например, книга Chief AI Officer Handbook от Packt Publishing. Которую уже после 1й главы начинаешь подозревать в чем-то нехорошем: уж слишком подозрительно структурирован текст, идеальным языком написаны итоги каждого раздела, а главное - уж больно бессмысленно все это в совокупности. До последнего не хотелось верить, что в такое издательство может проникнуть книга, так неприкрыто написанная LLM/ChatGPT, но более детальный разбор показал, что так оно и есть.

Грусть, возмущение и мысли о том, что бедным издательствам теперь будет трудно, и надо что-то менять, чтобы продолжать оставаться ценными для читаталей. А нам, читателям, тоже надо быть начеку и - если мы хотим получать действительно ценную информацию - уметь отличать сгенерированную LLM инфу от человеческой. Уже даже исследования появляются на тему того, что у человека это неплохо получается - лучше алгоритмов.

В голове - с учетом статей - собираются вот такие критерии для идентификации LLM-подставы:

- Очень характерный стиль изложения: выхолощенная, предсказуемая структура, с четкими абзацами и пошаговым изложением, где жирным выделены главные резюмирующие мысли (в начале каждого абзаца).

- Заключения всегда аккуратные, оптимистичные и резюмирующие

- Часто используются определенные слова. Судя по статье, например, vibrant, crucial, significantly, etc. А по личным наблюдениям, можно даже найти следы промптов в тексте - например step-by-step в заголовках книги про Chief AI Officer.

- Отсутствие понятного посыла или новых/интересных для читателя мыслей. Хотя как единственный критерий это, конечно, не работает. Всякие книги встречаются.

- Фактура спорная, неверная или очень общая. Пример критерия с высоким весом - ссылки на литературу ведут на несуществующие страницы.

- Ни одной (или мало) схем в тексте. У авторов-людей почти всегда есть потребность как-то визуально структурировать и показать наглядно мысли, которые они передают в тексте. Для LLM-текста - человек должен заморочиться отдельным промптом, чтобы собрать подобное. А возможно, даже осмыслить тот текст, который ему написала модель. Это уже существенно отдалит его от полностью сгенеренного.

Есть ли у вас что добавить к списку критериев? Не дадим LLM захватить литературу!

Вот такой вот дивный новый мир. На фоне размышлений о будущем после книги про AI Officers мне вспоминается история из великого башорга. Для тех, кто еще помнит 😄

На картинке - скрин из книги с заголовком с кусочком промпта.

Ваш @Reliable ML

#business #мысли #reliable_ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Ошибки при внедрении Generative AI решений
Перевод статьи Chip Huyen - Common pitfalls when building generative AI applications

Chip Huyen, сооснователь Claypot AI, автор популярного блога и книги "Designing Machine Learning Systems", а также эксперт, не нуждающийся в дополнительном представлении среди ML-специалистов, опубликовала статью про основные ошибки при разработке и внедрении генеративных AI-решений. Составили для вас перевод.

Итак, самые распространенные ошибки:

Использование GenAI, когда он не нужен

GenAI часто применяют для задач, где традиционные методы эффективнее. Например, оптимизацию энергопотребления можно решить простым планированием действий в часы с низкими тарифами, а не через сложные LLM-модели. Многие компании ошибочно внедряют AI ради хайпа, игнорируя более дешевые и надежные решения, такие как линейное программирование или rule-based системы.

Эксперименты с GenAI должны включать анализ того, не добавляет ли их использование избыточной сложности и костов.

Путаница между «плохим продуктом» и «плохим AI»

Провалы AI-продуктов часто связаны не с технологией, а с плохим UX. Например, чат-бот Intuit изначально провалился из-за неочевидного интерфейса: пользователи не понимали, что ему писать. Решением стали подсказки с примерами вопросов, что резко улучшило вовлеченность.

Важно уделять большое внимание тому, как AI-решение может улучшить бизнес-процесс. Например, LinkedIn не сразу осознал, что для пользователей наиболее полезна не простая оценка их навыков и метча с интересной вакансией, а рекомендации по их улучшению. Самое важное - не модель, а то, как ваш продукт решает конкретные боли пользователей.

Начинать со слишком сложного

Многие команды усложняют систему, используя агентские фреймворки или векторные БД, когда достаточно простых взаимодействий через API. Например, выбор семантического кэширования вместо поиска по ключевым словам добавляет ненужные зависимости и ошибки.

Если внедрять сложные решения сразу, это добавляет избыточную сложность в логику системы и замедляет дебаггинг. Лучше начинать с минимально рабочего решения, а затем масштабировать, когда базовые принципы проверены и стабильны.

Переоценка раннего успеха

Первые 80% результата достигаются быстро, но последующие улучшения требуют непропорционально много усилий. Например, LinkedIn потратил 4 месяца на доводку продукта с 80% до 95% качества из-за борьбы с галлюцинациями.

Стартапы сталкиваются с аналогичными проблемами: компромиссы между точностью и скоростью, сложности в интерпретации запросов. Кроме того, изменения в API-моделях или их ненадежность могут «сломать» уже работающий продукт.

Отказ от человеческой оценки

Оценка с помощью AI не заменяет людей: автооценка зависит от промптов и могут быть субъективными. Например, если автооценка хвалит ответы, а пользователи их ненавидят, это сигнал пересмотреть метрики.

Ручная проверка 30–1000 примеров ежедневно помогает находить паттерны, которые алгоритмы пропускают. Как показал пример Intuit, даже небольшие изменения в интерфейсе, выявленные через обратную связь, кардинально меняют восприятие продукта.

Сила - в комбинации человеческих проверок и автооценки.

Краудсорсинг сценариев использования

Выбор сценариев использования GenAI решений без стратегии приводит к разрозненности и дублированию усилий. Компании создают множество однотипных решений (например, чат-ботов для Slack, помощников для кодинга, и text-to-SQL вариаций), но не фокусируются на высокоэффективных кейсах.

Без приоритизации по ROI команды тратят ресурсы на «удобные» задачи, а не на те, что приносят реальную ценность. Стратегия должна учитывать не только техническую реализуемость, но и влияние на бизнес-метрики.

***

Вот такие вот советы от Chip Huyen. Самое классное, что они полностью применимы и к классическому ML. Книга "Rules of ML" от Google - нетленна. А ее первое правило в особенности.

Что вы бы добавили к этим советам из своей практики?

Ваш @Reliable ML

#business #reliable_ml #llm #generative_ai
2025/03/27 09:05:42
Back to Top
HTML Embed Code: