Telegram Web
Друзья, давно меня тут не было.

Дело в том что последние три месяца все свое свободное время я тратил на настройку чатбота ChatGPT. Хочу, чтобы он вел канал вместо меня. Пока, как видите, безуспешно.

В общем, админы ТГ-каналов пока могут выдохнуть. Но расслабляться рано! Вот, как видите, ChatGPT уже написал статью по маркетингу всего за 30 секунд.
Кассовые сборы
Друзья, давно меня тут не было. Дело в том что последние три месяца все свое свободное время я тратил на настройку чатбота ChatGPT. Хочу, чтобы он вел канал вместо меня. Пока, как видите, безуспешно. В общем, админы ТГ-каналов пока могут выдохнуть. Но расслабляться…
Кстати, вся киноиндустрия затаила дыхание в ожидании первого сценария от ChatGPT.

По моему скромному прогнозу, фильм с таким сценарием просто обязан собрать в российском прокате минимум 4 млрд.
☁️ Что я буду делать и о чем писать дальше

Друзья, вот уже год как я перестал вести свой канал.
И дело не в том, что мне наскучило это занятие.

Около года назад я решил окунуться с головой в аналитику данных с помощью языка программирования python 🐍. Сначала я стал осторожно интересоваться, начал делать первые шаги в написании кода и изучении мат.статистики, а потом так погрузился с головой в учебу, что свободного времени почти не оставалось.

За год я освоил базовый python, научился парсить данные в интернете (коллеги с сайта kinobusiness, простите, это были не ddos-атаки), разобрался в статистических метриках, понял, как доказать, что какое-либо событие произошло не в результате случайности.

📈 И вот теперь я готов вернуться к каналу: и не с пустыми руками. За год я многое узнал, и теперь готов делиться этим с вами.

Я буду рассказывать о теории и практике анализа данных, трудностях, с которыми я сталкиваюсь в своих проектах, помогу разобраться, как правильно читать статистику, почему рост конверсии или числа лайков может вас обмануть, как неправильная интерпретация статистических данных, полученных в результате анализа мозга мертвого лосося, может показать, что он жив 🐟.

Кроме лосося и еще парочки кейсов, я буду стараться приводить примеры из мира кино и сериалов, чтобы вам было интересно.

Ну что, print('Hello, world!') и погнали.
Please open Telegram to view this post
VIEW IN TELEGRAM
📊 Эффект «Чебурашки» или почему расчет среднего может ввести в заблуждение

Одна из самых популярных статистических метрик – среднее арифметическое значение. В СМИ и в телеграме мы часто встречаем «среднюю температуру в июне», «среднюю цену тура в Анталию», «средний рейтинг фильма» и т.д.

Рассчитывается среднее арифметическое просто: суммируются все показатели и затем полученное число делится на их количество. Получается число, по которому вроде бы можно судить о распределении всех значений.

💡 Однако иногда среднее может вводить нас в заблуждение.

Представьте, что где-то в Техасе после тяжелой трудовой недели в уютном баре собрались инженеры Tesla. У пяти из них зарплата $3 тыс. в месяц, у других пяти — $5 тыс. Средняя зарплата сотрудников Tesla в баре будет равна $4 тыс. Но тут в бар заходит Илон Маск. Предположим, что его доход — $150 млн в месяц. Средняя зарплата сотрудников Tesla в баре резко взлетает до $13,6 млн в месяц.

🧮 Как «Чебурашка» может исказить данные о кассовых сборах

На диаграмме к этому посту мы видим распределение сборов российских фильмов после начала СВО. На графике видны три точки, которые улетели вправо. Первая — это фильм «Сердце Пармы», вторая — «Вызов», третья — «Чебурашка». На троих они собрали почти 10 млрд рублей.

Если мы рассчитаем по этим данным среднее значение, то получится, что после 24 февраля 2022 года российский фильм в среднем собирает 74,9 млн рублей.

В случае выборок, когда у нас есть несколько выделяющихся на общем фоне значений (их называют в статистике «выбросами»), корректнее рассчитывать медиану. Медиана – это значение, которое располагается ровно посередине. Например, в выборке значений [3, 5, 6, 8, 9, 15, 500] медианой будет 8.

Таким образом, медиана сборов российских фильмов после начала СВО — 4,2 млн рублей, что уже лучше отражает реальность.
Please open Telegram to view this post
VIEW IN TELEGRAM
#интересный_факт

💸 "Троянская штучка" ("Trojan War") — самый провальный фильм с 1980 года относительно вложенных в него средств. Комедия 1997 года выпуска стоила $15 млн, а собрать в кинотеатрах ей удалось всего $309.

Вторым по невозврату инвестиций стал фильм "Оборотень" ("Ginger Snaps") 2000 года выпуска. Его бюджет - $5 млн, сборы — $2 554.

Замыкает тройку фильм "Филадельфийский эксперимент 2" (Philadelphia Experiment II) 1993 года выпуска. Его бюджет — $5 млн, сборы — $2 970.

* Данные — из датасета фильмов IMDb, выпущенных с 1980 года
РБК публикует интересное исследование о том, чем живет молодежь.

В нем есть данные о том, сколько % от ответивших смотрит тот или иной контент.

Сразу же понеслись выводы о том, что дескать ТВ-каналы плохо работаю с подрастающим поколением.

Коллеги, но посмотрите еще раз: в данном случае речь ведь идет о чисто технологических площадках. (Правда, на инфографике они немного перемешаны с "Фильмами и сериалами", что является уже видом контента, который есть и на ТВ, и в соцсетях.)

Было бы странно, если бы молодежь сохраняла привычки своих бабушек и дедушек и собиралась у экрана каждый вечер. Однако никто ей не мешает смотреть контент тех же ТВ-каналов, но в соцсетях или на Youtube.

Upd. Исследование прошлогоднее, сегодня поднялась вторая волна его обсуждения в Telegram. Совпадение? Подумаем.
👨‍💻 Как рассчитать норму и почему не стоит сразу пугаться плохих показателей

Друзья, все мы живем в мире каких-либо норм, и если что-то начинает в них не вписываться, то чувствуем душевные терзания.

▪️ Вам пришли результаты медицинского анализа и некий показатель равен 254. В интернете выяснили, что он превышает средний для вашего возраста на 20. Составляете завещание.

▪️ Два ваших ролика подряд на ВК собрали по 4 тыс. просмотров, в то время как средний показатель просмотров ваших видео — 15 тыс. Все плохо, удаляетесь из ВК навсегда.

Нам часто кажется, что некое среднее арифметическое — это некая норма. И если в него не вписаться, то все либо плохо, либо хорошо.

Однако чаще всего все не так страшно. Перед тем как делать какие-то выводы, нужно разобраться в природе распределения данных, на которые мы смотрим, и рассчитать их отклонение.

Что такое стандартное отклонение

Стандартное отклонение показывает, как разбросаны данные в нашей выборке. Возьмем 5 чисел: 1, 3, 6, 8, 10. Их стандартное отклонение — около 3. В наборе чисел 1, 2, 3, 4, 5 ст.отклонение — 1,4. Упрощенно оно рассчитывается так: суммируются все разницы между значениями и потом делится на их число.

Интересно вот что. В любом наборе каких-либо данных 99% процентов их значений лежит в области 3-х отклонений от среднего значения в меньшую сторону, и 3-х — в большую.

🧍‍♀ Объясню. Средний рост женщины в России — 164 см. Стандартное отклонение для роста женщины — 6 см. Это означает, что рост 99% женщин в России — от 146 до 182 см. Получается, что если вы укладываетесь в эти рамки, то ваш рост не низкий, и не высокий — а вполне нормальный.

То же самые актуально и для всех остальных средних значений, которые принято называть "нормами". Среднее - лишь одна из метрик описательной статистики и само по себе мало что сообщает.
Please open Telegram to view this post
VIEW IN TELEGRAM
🥳 Вчера Telegram перевернул очередную страницу и запустил сторис. И тут понеслась... Лента заиграла новыми красками.

Пока вот только не понял: можно ли публиковать сторис от каналов?

В общем, SMMщики затаились и ждут новых вводных.
💰 Какие российские актеры стали самыми кассовыми за 20 лет?

Друзья, сегодня я наконец-то готов представить результат своего небольшого исследования, которое я провел с помощью написанного мной кода. (Оно доступно по ссылке).

Получился рейтинг 5 821 актера по сумме кассовых сборов фильмов с их участием за 20 лет: с 2003 по 2023 год.

Итак, вот топ самых кассовых актеров за 20 лет:

🥇Елена Яковлева — фильмы с ее участием собрали ₽18,3 млрд, всего с 2003 года в прокат был выпущен 21 фильм с ней;

🥈Сергей Гармаш — ₽15,1 млрд, 39 фильмов;

🥉 Александр Петров — ₽12,2 млрд, 22 фильма.

💪 Самым плодовитым актером стал Гоша Куценко, с 2003 года он снялся в 58 фильмах.

Как я проводил исследование:

1. Написал код, который прошелся по всем карточкам фильмов на kinobusiness.com и собрал нужные данные в таблицу;
2. Обработал их и структурировал;
3. Нарисовал дашборд в Datalens: для каждого актера суммировал кассовые сборы его фильмов.
🚗 Как я запустил свою первую модель машинного обучения

Долго решался на подход к machine learning — пугал миф о высоком входном математическом барьере — и на прошлой неделе решился-таки: начал курс на платформе Stepik. Оказалось, что не так страшен ML, как его малюют. По крайней мере, на старте.
Но обо всем по порядку.

👉 С чего я начал

Я скачал большую табличку данных (датасет) с сайта Kaggle.com. В датасете — данные по 10 700 подержанным авто марки BMW из Соединенного Королевства. Столбцы в таблице такие: год производства, пробег, литраж двигателя, трансмиссия, еще несколько признаков и цена.

Задача: на основе имеющихся признаков создать модель, которая будет предсказывать цену авто.

🏋️‍♀️ Первым делом вместе с автором курса я построил модель человеческого обучения. Простейшая модель человеческого обучения выглядит так: по каждому признаку с помощью сводных таблиц считается среднее, которое и будет выступать нашим прогнозом. Например, мы выявили вполне очевидную корреляция между годом и ценой: чем старше авто, тем ниже цена. Далее выдвинули гипотезу: если в 2015 году средняя цена продажи авто составляла, условно, 15 тыс. у.е., то для любого авто 2015 года цена будет предположительно равна этому значению.

Как вы интуитивно понимаете, такое предсказание будет не только простым, но и очень неточным. Если мы сравним среднюю стоимость по году с реальными данными, то в случае каждого авто получим ошибку модели: разницу между нашим предсказанием и реальной стоимостью авто. Где-то эта ошибка будет 10 тыс., где-то 3 тыс. В среднем она будет очень большой.

Чтобы снизить ошибку модели, можно добавить в модель признаков. То есть, посчитать среднее не только по году, но и, например, по группе пробега для каждого года. Получится примерно так: для авто выпуска 2013 года и пробега от 10 до 20 тыс. км средняя стоимость будет 20 тыс. у.е.

Добавив новый признак, нам удалось чуть снизить ошибку предсказания. И признаки можно добавлять, пока мы не получим минимальную ошибку, которая возможна для наших данных.

🤖 Чем отличается человеческое обучение от машинного?

Тут все логично: в машинном обучении анализом различных признаков, их влияния на прогноз и снижением ошибки занимается не человек, а компьютер. Причем от самого исследователя, в случае простых моделей, не требуется каких-то суперзнаний или супермозга. Ведь чтобы пользоваться микроволновкой, не нужно знать теорию микроволн – нужно просто уметь нажимать на кнопки. Благо в Python существуют библиотеки, которые супермозг уже разработал.

Для обучения своей модели я использовал библиотеку CatBoost от Яндекса. На данных подержанных авто мне удалось добиться ошибки в 6% — она означает, что в среднем разница между предсказанием и реальной ценой моей модели составила 6%.

📈 Какой вывод я сделал, кроме того, что BMW младше 2016 г. стали есть много топлива

В очередной раз убедился, что любые самые сложные вещи в IT начинаются с интуитивно понятных любому, закончившему среднюю школу, человеку. Даже такому как я – чистому гуманитарию, который вспомнил, как складывать дроби, только полгода назад. Так что на самом деле Data Science –  это не башня из слоновой кости и для старта нужно не так много знаний, как кажется. А далее – дело вашего любопытства, усидчивости и упертости.
Please open Telegram to view this post
VIEW IN TELEGRAM
👋 Друзья, сегодня мой последний день работы в коммуникациях "Газпром-Медиа Холдинга".

Три года, которые я провел здесь, стали для меня серией испытаний — как в личном, так и в профессиональном плане.

Опыт в пиаре крупнейшего российского холдинга — это возможность поработать над крупнейшими в России медиапроектами, с лучшими продакшен-командами. Такой опыт делает человека сильней и мудрей абсолютно во всех отношениях. Нужно выкладываться каждый день, находить выход из любых тупиковых ситуаций. Заповедь стоиков тут умножается на два: мало выжать максимум из того, что находится в твоей зоне контроля. Надо выжать максимум из всех зон.

Кроме дирекции по коммуникациям ГПМХ, я завершаю и другой этап: из PR и SMM, в которых я проработал 12 лет, перехожу в аналитику данных. Лично для меня это новый вызов: буду подключаться к базам данных, настраивать пайплайны и анализировать retention rate. Периметр холдинга я не покидаю: перехожу в одну из его компаний, о которой сообщу позже.
🤘Ну что, привет, национальный видеохостинг!

Теперь я буду трудиться здесь, не покладая sql запросов.

Для меня это большой шаг - переход из digital-коммуникаций в data аналитику.

Как я к этому пришел?

Если коротко, однажды мне перестало хватать интерфейсов аналитических систем, которыми приходилось пользоваться для нужд SMM. И я заглянул под капот. Понял, как много можно сделать с сырыми данными, если уметь их добывать и раскладывать. Стал разбираться, учиться и затянуло.

С десяток собеседований, тестовые, pet-проекты и вот теперь я тут. Уверен, впереди много интересного!
Please open Telegram to view this post
VIEW IN TELEGRAM
Друзья, всем привет! Давно не виделись 😊

Я к вам не с пустыми руками.

Чтобы набить руку в дата-разработке, я тут запустил бота, который круглосуточно и без выходных мониторит телеграм-каналы о киноиндустрии.

Бот оценивает просмотры, репосты и каждые 2 часа публикует самые динамичные посты в канал. Так что если у вас мало времени, отличная возможность следить за повесткой, не читая все публикации всех подряд каналов. 

Еще в начале каждого дня в канале публикуется топ дня. А специально для админов, SMM и PR аналитиков вся статиcтика аккуратно складируется в Google Таблицу, туда можно зайти и увидеть статистику по всем-всем постам и каналам за день.

В планах — добавить еще больше метрик, визуализировать их, а также начать анализировать тексты — их тематику и тональность.
Please open Telegram to view this post
VIEW IN TELEGRAM
⛅️ О чем писали каналы о киноиндустрии в январе 2024 в облаке слов
2024/09/26 04:10:53
Back to Top
HTML Embed Code: