Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
187 - Telegram Web
Telegram Web
Forwarded from AI для Всех
TorchGeo - PyTorch‘овая библиотека от Microsoft, аналогичная torchvision. В ней есть наборы данных, преобразования, семплеры и предварительно обученные модели, специфичные для geospatial (ГИС) данных.

🖥 Код
📎 Статья

#earthscience #geo #ScientificML #library
​​#books

Дофамин: самый нужный гормон. Как молекула управляет человеком

Весьма интересная книга. Авторы пишут про то, что такое дофамин и как он влияет на нашу жизнь. Причем, в разных аспектах жизни - карьера, любовь, политика. Для себя узнал нечто новое, какие-то собственные действия и действия других людей стали понятнее в свете того, как нами управляют гормоны.

Из минусов - много реалий США. Поэтому глава про политику была скучноватой для меня.
#video

Отличное видео по теме причинно-следственного вывода в динамическом ценообразовании. Как-то мимо меня прошло, но просмотр точно стоил потраченного времени.
Рекомендую к просмотру (осторожно, там достаточно непростой материал).
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Отвал башки! Тут пацаны из гугла обучили NERF на RAW фотках. Получается просто башенного качества рендеринг HDR изображений. Можно менять экспозицию, фокус. Вы только посмотрите на получаемый эффект боке в ночных сценах!

Дополнительное преимущество этого метода перед обычным нерфом - это то, что он хорошо работает на шумных снимках с малым освещением. За счет того, что информация агрегируется с нескольких фотографий, метод хорошо справляется с шумом и недостатком освещения, превосходя специализированные single-photo denoising модели.

Статью ознаменовали как NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images. Ну, разве что кода еще нет.

Сайт проекта | Arxiv
Теоремы, которые мы заслужили
#libraries

Заметил, что пропал causalimpact, который был в репозитории dafiti (и многие примеры в интернете ссылаются на него). Это печально, но, к счастью, есть новая версия на tf - tfcausalimpact

Выглядит весьма похоже, так что может быть хорошей заменой
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
А теперь мы будем смотреть на эксперименты с системами ИИ, которые подарили нам Epic.

И маленькие проблемы на дорогах будут приводить к многокилометровым пробкам, без подгрузки лодов и исчезания акторов, когда вы просто отвернули голову.
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Mito

Клёвая либа для питона. Встраивает практически MS Excel в эти ваши jupyter notebooks.

При этом позволяет экспортировать манипуляции в питон-код для pandas, который можно потом использовать без установки Mito.

Огромный минус - не работает в колабах, vscode итд. Вижу такое применение: ставите локально, делаете свой ДАТАСАЙЕНС МЕДЖИК, а экспортированный код используете в остальных местах.

Лонгрид тут
Forwarded from Denis Sexy IT 🤖
Люблю такие пересечения данных:
🔵 Синим – количество случаев заражения ковидом за сутки в США

🔴 Красным – отзывы в Амазоне на ароматизированные свечи бренда «Yankee Candles» с текстом вроде «Они не пахнут»

Думаю пройдут годы, прежде чем досконально опишут как вирус повлиял на все «сетевым эффектом» 🥲

P.S. Отдельно проверили – до пандемии не было таких скачков в отзывах, то есть не сезонное.
#AB

Вышла хорошая статья от коллег про пре- и постстратификацию. Рекомендую прочитать на досуге
​​С наступающим 2022 годом, господа и дамы подписчики!

В этом году у меня получилось выполнить почти все цели, которые я ставил. Я бы оценил процент выполнения в ~85-90%, что весьма неплохо.

В следующем году я ожидаю еще больше приключений (знакомые знают почему). Но все это будут весьма приятные (и местами полезные) приключения.

Собственно, вам желаю того же. Чтобы в этом году у вам были только приятные и полезные приключения, которые приводили бы к новым вехам в жизни и новым артефактам!

P.S. Ru-Dalle - это уже заезженная тема. Но хотелось какую-нибудь необычную картинку поставить к посту ;)
Channel photo updated
#video

Раз уж недавно собрали плейлист лучших выступлений на DataFest 2021 года, то стоит вспомнить крутые видео оттуда.

Одно из них от моей подруги, Даши Прониной. Называется "Что специалист по Data Science может подсмотреть у разработчиков". Очень рекомендую к просмотру тем, кто не видел. Благо, на праздниках вполне могут найтись свободные полчаса.
#management

Продолжаем потихоньку подходить к рабочим будням.

Сегодня закину классный сборник материалов для продактов от CPO YouDo - Адама Елдарова. Можно даже сказать, что это некий "курс молодого бойца" для продактов.

Если интересны материалы по этому направлению - смело могу советовать пройтись по этому списку. Хорошенько подкачаете продуктовые скиллы.
Forwarded from Время Валеры
Я почитал недавно статью на хабре про АБ тесты от одной компании
С удивлением обнаружил что там ниспровергается Cuped (точнее определенная формула)

И приводится этот код для проверки
Код из статьи воспроизведен без изменений (число итераций увеличено в 10 раз) в ячейке номер 2

Ячейка 2 выдает следующее
Не попал в 85.07000000000001% случаев; доверительный интервал: [84.36%, 85.76%]
Выглядит и вправду плохо, при ожидаемом уровне в 5% мы наблюдаем уровень ложно положительных результатов многократно выше


Я обратил внимание на то, что на одном и том же датасете считается сontrol before как ковариата и как вычитаемое среднее, к сожалению здесь ошибка и так делать нельзя. Это классический пример переобучения. Примерно как валидироваться на трейне и потом попасть впросак на новом датасете

Правится это следующим образом, вычитаемое среднее считается глобально по всему датасету (например если в а/б тест отправилось 5% юзеров, то среднее будем считаться по всем 100% и можем учесть чуть больший период времени)

В идеальном мире это выглядело бы вот так
Я бы просто знал параметры распределения и использовал их для вычитания среднего, хотя тогда и А/Б не нужен (строчка 8)
Ячейка 3

Допустим я не знаю параметры распределения, но у меня много данных, тогда будет вот так (строчка 4 и 9)
Ячейка 4

Вот как будет это выглядеть в реальной жизни при самом плохом случае, когда мы сравниваем группу А и Б и допустим что никаких других данных у нас нет
Ячейка 5

Вот как будет это выглядеть в реальной жизни при наличии каких то данных, кроме самих групп А и Б или А1 и А2
Ячейка 6

Вы можете позапускать код самостоятельно и убедится что во всех четырех случаях цифры будут около 5% , но пожалуй пристальнее всего стоит смотреть на то как будет в реальной жизни

Также, для сравнения дал пример где накинул очень маленький шум в качестве эффекта, cuped поймал его в половине случаев, без cuped - только в пяти из ста
Ячейка 7 и 8 соответственно

P.S. Кажется я знаю откуда может идти идея ниспровержения. По моему я был один из первых людей, сделавших доклад о Cuped на русском
В моем репозитории Cuped как раз был реализован с этой ошибкой, о чем я знал последние года два, но не придавал значения
Чуть подробнее мы разобрали это в ОДС в Июле 2021 года в этом треде

#ArticleReview
​​#statistics

Propensity score mathcing. Что это такое?

Кажется, что к концу праздников все уже подустали отмечать, так что можно рассказать про что-нибудь посложнее и поинтереснее, дабы начать вливаться в более иди менее "боевой" режим.

Итак, зачем нам вообще что-то такое нужно?
Конечно, круто иметь рандомизированное исследование, где все разбито по фен-шую и есть сопоставимые группы объектов. Но, увы, такая роскошь нам доступна не всегда. И в обычной жизни чаще встречаются не особо случайные разбиения на группы.

Но нам же хочется хотя бы приблизиться к похожему на случайное разбиение. То есть достичь хотя бы псевдорандомизации. И тут нам на помощь приходит один из методов достижения нашей цели. А именно - propensity score matching.

Что есть propensity score? По сути, это оценка условной вероятности того, что при заданных признаках элемент выборки попадет в treatment. То есть, получается, что нам нужно попробовать оценить, сколь вероятно, что именно этот объект попадет в treatment (а мы помним, что разбиение у нас не является случайным -> какие-то признаки и/или их сочетание приводят к попаданию в treatment).

Кажется, что это повод прикрутить сюда машинное обучение ;)

Давайте попробуем сделать модель, которая по признакам объекта будет предсказывать, попадет ли он в treatment, или нет. Результатом ее работы и будет искомый propensity score.

Ок, у нас есть некий score. Что дальше?
А дальше мы делаем взвешивание наших объектов на основе того, какой у них propensity score. Логика проста - нам нужно сделать так, чтобы учитывались как можно более похожие объекты, но с двух сторон баррикад (с treatment и без). Для этого и будем учитывать нашу оценку. Называется такой метод Inverse Probability of Treatment Weighting (IPTW), т.к. он изменяет вес на основании вероятности того, что этот элемент получил treatment. Думаю, лучше принцип объясняет картинка, которую приложил к посту.

При этом, нам нужно, чтобы каждый (или хотя бы большинство) элементов имело шанс попасть и в treatment и в его отсутствие. То есть, распределения для treated и untreated должны пересекаться. Иначе мы попытаемся сравнить совсем уже различные сущности, что приведет к неверной оценке.

Дополнительно нам желательно проверить, что суммы для 1/P(x) и 1/(1 - P(x)) примерно совпадают с размером нашей популяции, то есть, что у нас нет перекосов во взвешивании.

И стоит не забывать, что нам все еще желательно оценить не точечный эффект, а какой-то доверительный интервал эффекта. Для этого можно делать бутстрапированную оценку, просто делая ресэмплы нашей выборки, считая propensity score и делая взвешивание для этой конкретной выборки с последующим получением Average Treatment Effect (ATE).

Но стоит помнить, что метод не универсален и имеет свои минусы, а также подвергается критике в научном сообществе (пример - вот это видео).

Типичные проблемы метода:
1. Улучшение классификации на treatment и его отсутствие не превращается в улучшение балансирующих свойств нашего метода. По сути, нам лишь нужно учесть признаки, которые приводят к дисбалансу, но не сделать лучший классификатор;
2. В случае, когда у нас слабо пересекаются распределения (например, максимальный propensity score для untreated 0.7, а для treated - 0.99), мы можем привнести bias в нашу оценку, т.к. у нас попросту нет похожих сущностей, которые мы могли бы сравнить.

Лично я считаю, что для применения в индустрии метод может быть полезен. Т.к. это уже шаг в сторону улучшения точности наших оценок эффектов.
Со своими минусами, но и с плюсами, которые все же перевешивают.
#management

Синдром установки на неудачу. Что это такое?

Прочитал недавно интересный материал по "синдром установки на неудачу". И хотел бы немного про него рассказать.

Итак, у нас есть менеджер (М) и работник (Р).

Обычно, синдром развивается по следующему сценарию:
1. Предположим, что по какой-то причине (иногда вовсе не зависящей от него) Р допускает серьезную оплошность. В народе: "косорезит".
2. На это, очевидно, обращает внимание М. И начинает пристальнее следить за проблемным сотрудником.
3. Р начинает нервничать, ощущая пристальный взгляд в затылок от М. И пытается работать усерднее, чтобы "искупить трудом" свой проступок. Ну и начинает подгорать.
4. При этом, М не перестает пристально следить за подчиненным, т.к. тот еще в фокусе внимания, ибо "косячит".
5. В какой-то момент работник начинает уставать от того, что его незримо считают тем, за кем нужно пристально следить, а также от того, что слишком усердствует. Начинаются непроизвольные ошибки, накапливается усталость и разочарование.
6. М видит, что Р опять начинает допускать мелкие (или не особо мелкие) оплошности и понемногу терять мотивацию. И М еще больше утверждается в своем мнении о сотруднике.
7. В итоге получаем петлю обратной связи, которая может привести к выгоранию Р с последующими негативными последствиями (вплоть до увольнения).


P.S. Понятное дело, что есть категория объективно слабых сотрудников. К ним это менее применимо. Но все же стоит помнить про этот синдром. И периодически пересматривать свои отношения к подчиненным (а правда ли он настолько хорош/плох, как я думаю?). Ну и ставить более объективные мерила того, хорошо ли справляется подчиненный.
P.P.S. Позже опишу, как выходить из этой петли обратной связи.
27.01 пройдет первый в этом году X5 Data Driven митап. Будет несколько докладов про А/Б тестирование и около него.

Я там тоже буду выступать, так что если хотите послушать - регистрируйтесь (ссылка ниже).

Доклады митапа:
- AБ-тестирование в офлайн ритейле. Особенности дизайна эксперимента;
- AБ-тесты на скоррелированных объектах;
- Как перестать беспокоиться и полюбить метаанализ;
- Doubly Robust Difference-in-Differences Estimators: обзор способа оценки эффекта.

Регистрация по ссылке
#management

Синдром установки на неудачу. Решения.

Увы, но серебряной пули в этом плане нет. Надо общаться. Но можно посоветовать те вещи, на которые стоит обратить внимание, если хочется разрешить проблему.

1. Нужно создать комфортную атмосферу для общения обеих сторон.
Иначе, одна из сторон обязательно сразу будет в защитной стойке. И открытого диалога не выйдет.
2. Определить проблему и ее причины стоит совместными усилиями.
Если одна из сторон просто опирается на ощущения или продавливает свое видение проблемы, то компромисса достичь не получится.
Опять же, если не найти причину - то деятельных выводов их такой беседы извлечь не выйдет.
3. Нужно договориться о показателях того, насколько хорошо идут дела. И о "перезагрузке".
Первое поможет объективно оценивать прогресс и положение на шкале "плохо-хорошо" для обеих сторон. И опираться на факты в дальнейшем общении.
"Перезагрузка" нужна, чтобы избавиться от багажа предрассудков. Если продолжить с того же места, то смысла в предыдущих пунктах будет мало. Кстати, именно эту часть я считаю самой сложной, т.к. весьма непросто очистить мнение от уже существующей истории взаимодействия.
4. Сделать последующие встречи такими же комфортными и открытыми.
Это позволит честнее общаться друг с другом и впредь иметь меньший уровень непонимания.
По ссылке запись митапа, на котором в четверг выступал с докладом про метаанализ. И ссылка на саму презентацию.
2025/07/13 20:22:37
Back to Top
HTML Embed Code: