Друзья, давно меня тут не было.
Дело в том что последние три месяца все свое свободное время я тратил на настройку чатбота ChatGPT. Хочу, чтобы он вел канал вместо меня. Пока, как видите, безуспешно.
В общем, админы ТГ-каналов пока могут выдохнуть. Но расслабляться рано! Вот, как видите, ChatGPT уже написал статью по маркетингу всего за 30 секунд.
Дело в том что последние три месяца все свое свободное время я тратил на настройку чатбота ChatGPT. Хочу, чтобы он вел канал вместо меня. Пока, как видите, безуспешно.
В общем, админы ТГ-каналов пока могут выдохнуть. Но расслабляться рано! Вот, как видите, ChatGPT уже написал статью по маркетингу всего за 30 секунд.
Telegram
Ньюсач/Двач
Чатбот ChatGPT написал за журналиста статью по маркетингу стоимостью 600 долларов за 30 секунд.
Статья требовала некоторого редактирования, потому что ей недоставало авторского взгляда, но контент, логика изложения, грамматика и синтаксис были безупречны.…
Статья требовала некоторого редактирования, потому что ей недоставало авторского взгляда, но контент, логика изложения, грамматика и синтаксис были безупречны.…
Кассовые сборы
Друзья, давно меня тут не было. Дело в том что последние три месяца все свое свободное время я тратил на настройку чатбота ChatGPT. Хочу, чтобы он вел канал вместо меня. Пока, как видите, безуспешно. В общем, админы ТГ-каналов пока могут выдохнуть. Но расслабляться…
Кстати, вся киноиндустрия затаила дыхание в ожидании первого сценария от ChatGPT.
По моему скромному прогнозу, фильм с таким сценарием просто обязан собрать в российском прокате минимум 4 млрд.
По моему скромному прогнозу, фильм с таким сценарием просто обязан собрать в российском прокате минимум 4 млрд.
Друзья, вот уже год как я перестал вести свой канал.
И дело не в том, что мне наскучило это занятие.
Около года назад я решил окунуться с головой в аналитику данных с помощью языка программирования python
За год я освоил базовый python, научился парсить данные в интернете (коллеги с сайта kinobusiness, простите, это были не ddos-атаки), разобрался в статистических метриках, понял, как доказать, что какое-либо событие произошло не в результате случайности.
Я буду рассказывать о теории и практике анализа данных, трудностях, с которыми я сталкиваюсь в своих проектах, помогу разобраться, как правильно читать статистику, почему рост конверсии или числа лайков может вас обмануть, как неправильная интерпретация статистических данных, полученных в результате анализа мозга мертвого лосося, может показать, что он жив
Кроме лосося и еще парочки кейсов, я буду стараться приводить примеры из мира кино и сериалов, чтобы вам было интересно.
Ну что, print('Hello, world!') и погнали.
Please open Telegram to view this post
VIEW IN TELEGRAM
Одна из самых популярных статистических метрик – среднее арифметическое значение. В СМИ и в телеграме мы часто встречаем «среднюю температуру в июне», «среднюю цену тура в Анталию», «средний рейтинг фильма» и т.д.
Рассчитывается среднее арифметическое просто: суммируются все показатели и затем полученное число делится на их количество. Получается число, по которому вроде бы можно судить о распределении всех значений.
💡 Однако иногда среднее может вводить нас в заблуждение.
Представьте, что где-то в Техасе после тяжелой трудовой недели в уютном баре собрались инженеры Tesla. У пяти из них зарплата $3 тыс. в месяц, у других пяти — $5 тыс. Средняя зарплата сотрудников Tesla в баре будет равна $4 тыс. Но тут в бар заходит Илон Маск. Предположим, что его доход — $150 млн в месяц. Средняя зарплата сотрудников Tesla в баре резко взлетает до $13,6 млн в месяц.
На диаграмме к этому посту мы видим распределение сборов российских фильмов после начала СВО. На графике видны три точки, которые улетели вправо. Первая — это фильм «Сердце Пармы», вторая — «Вызов», третья — «Чебурашка». На троих они собрали почти 10 млрд рублей.
Если мы рассчитаем по этим данным среднее значение, то получится, что после 24 февраля 2022 года российский фильм в среднем собирает 74,9 млн рублей.
В случае выборок, когда у нас есть несколько выделяющихся на общем фоне значений (их называют в статистике «выбросами»), корректнее рассчитывать медиану. Медиана – это значение, которое располагается ровно посередине. Например, в выборке значений [3, 5, 6, 8, 9, 15, 500] медианой будет 8.
Таким образом, медиана сборов российских фильмов после начала СВО — 4,2 млн рублей, что уже лучше отражает реальность.
Please open Telegram to view this post
VIEW IN TELEGRAM
#интересный_факт
💸 "Троянская штучка" ("Trojan War") — самый провальный фильм с 1980 года относительно вложенных в него средств. Комедия 1997 года выпуска стоила $15 млн, а собрать в кинотеатрах ей удалось всего $309.
Вторым по невозврату инвестиций стал фильм "Оборотень" ("Ginger Snaps") 2000 года выпуска. Его бюджет - $5 млн, сборы — $2 554.
Замыкает тройку фильм "Филадельфийский эксперимент 2" (Philadelphia Experiment II) 1993 года выпуска. Его бюджет — $5 млн, сборы — $2 970.
* Данные — из датасета фильмов IMDb, выпущенных с 1980 года
💸 "Троянская штучка" ("Trojan War") — самый провальный фильм с 1980 года относительно вложенных в него средств. Комедия 1997 года выпуска стоила $15 млн, а собрать в кинотеатрах ей удалось всего $309.
Вторым по невозврату инвестиций стал фильм "Оборотень" ("Ginger Snaps") 2000 года выпуска. Его бюджет - $5 млн, сборы — $2 554.
Замыкает тройку фильм "Филадельфийский эксперимент 2" (Philadelphia Experiment II) 1993 года выпуска. Его бюджет — $5 млн, сборы — $2 970.
* Данные — из датасета фильмов IMDb, выпущенных с 1980 года
РБК публикует интересное исследование о том, чем живет молодежь.
В нем есть данные о том, сколько % от ответивших смотрит тот или иной контент.
Сразу же понеслись выводы о том, что дескать ТВ-каналы плохо работаю с подрастающим поколением.
Коллеги, но посмотрите еще раз: в данном случае речь ведь идет о чисто технологических площадках. (Правда, на инфографике они немного перемешаны с "Фильмами и сериалами", что является уже видом контента, который есть и на ТВ, и в соцсетях.)
Было бы странно, если бы молодежь сохраняла привычки своих бабушек и дедушек и собиралась у экрана каждый вечер. Однако никто ей не мешает смотреть контент тех же ТВ-каналов, но в соцсетях или на Youtube.
Upd. Исследование прошлогоднее, сегодня поднялась вторая волна его обсуждения в Telegram. Совпадение? Подумаем.
В нем есть данные о том, сколько % от ответивших смотрит тот или иной контент.
Сразу же понеслись выводы о том, что дескать ТВ-каналы плохо работаю с подрастающим поколением.
Коллеги, но посмотрите еще раз: в данном случае речь ведь идет о чисто технологических площадках. (Правда, на инфографике они немного перемешаны с "Фильмами и сериалами", что является уже видом контента, который есть и на ТВ, и в соцсетях.)
Было бы странно, если бы молодежь сохраняла привычки своих бабушек и дедушек и собиралась у экрана каждый вечер. Однако никто ей не мешает смотреть контент тех же ТВ-каналов, но в соцсетях или на Youtube.
Upd. Исследование прошлогоднее, сегодня поднялась вторая волна его обсуждения в Telegram. Совпадение? Подумаем.
Друзья, все мы живем в мире каких-либо норм, и если что-то начинает в них не вписываться, то чувствуем душевные терзания.
▪️ Вам пришли результаты медицинского анализа и некий показатель равен 254. В интернете выяснили, что он превышает средний для вашего возраста на 20. Составляете завещание.
▪️ Два ваших ролика подряд на ВК собрали по 4 тыс. просмотров, в то время как средний показатель просмотров ваших видео — 15 тыс. Все плохо, удаляетесь из ВК навсегда.
Нам часто кажется, что некое среднее арифметическое — это некая норма. И если в него не вписаться, то все либо плохо, либо хорошо.
Однако чаще всего все не так страшно. Перед тем как делать какие-то выводы, нужно разобраться в природе распределения данных, на которые мы смотрим, и рассчитать их отклонение.
Что такое стандартное отклонение
Стандартное отклонение показывает, как разбросаны данные в нашей выборке. Возьмем 5 чисел: 1, 3, 6, 8, 10. Их стандартное отклонение — около 3. В наборе чисел 1, 2, 3, 4, 5 ст.отклонение — 1,4. Упрощенно оно рассчитывается так: суммируются все разницы между значениями и потом делится на их число.
Интересно вот что. В любом наборе каких-либо данных 99% процентов их значений лежит в области 3-х отклонений от среднего значения в меньшую сторону, и 3-х — в большую.
🧍♀ Объясню. Средний рост женщины в России — 164 см. Стандартное отклонение для роста женщины — 6 см. Это означает, что рост 99% женщин в России — от 146 до 182 см. Получается, что если вы укладываетесь в эти рамки, то ваш рост не низкий, и не высокий — а вполне нормальный.
То же самые актуально и для всех остальных средних значений, которые принято называть "нормами". Среднее - лишь одна из метрик описательной статистики и само по себе мало что сообщает.
Please open Telegram to view this post
VIEW IN TELEGRAM
🥳 Вчера Telegram перевернул очередную страницу и запустил сторис. И тут понеслась... Лента заиграла новыми красками.
Пока вот только не понял: можно ли публиковать сторис от каналов?
В общем, SMMщики затаились и ждут новых вводных.
Пока вот только не понял: можно ли публиковать сторис от каналов?
В общем, SMMщики затаились и ждут новых вводных.
Кассовые сборы
🥳 Вчера Telegram перевернул очередную страницу и запустил сторис. И тут понеслась... Лента заиграла новыми красками. Пока вот только не понял: можно ли публиковать сторис от каналов? В общем, SMMщики затаились и ждут новых вводных.
Чувствую, первой реакцией на сторис в Telegram будет такой: кто все эти люди?
💰 Какие российские актеры стали самыми кассовыми за 20 лет?
Друзья, сегодня я наконец-то готов представить результат своего небольшого исследования, которое я провел с помощью написанного мной кода. (Оно доступно по ссылке).
Получился рейтинг 5 821 актера по сумме кассовых сборов фильмов с их участием за 20 лет: с 2003 по 2023 год.
Итак, вот топ самых кассовых актеров за 20 лет:
🥇Елена Яковлева — фильмы с ее участием собрали ₽18,3 млрд, всего с 2003 года в прокат был выпущен 21 фильм с ней;
🥈Сергей Гармаш — ₽15,1 млрд, 39 фильмов;
🥉 Александр Петров — ₽12,2 млрд, 22 фильма.
💪 Самым плодовитым актером стал Гоша Куценко, с 2003 года он снялся в 58 фильмах.
Как я проводил исследование:
1. Написал код, который прошелся по всем карточкам фильмов на kinobusiness.com и собрал нужные данные в таблицу;
2. Обработал их и структурировал;
3. Нарисовал дашборд в Datalens: для каждого актера суммировал кассовые сборы его фильмов.
Друзья, сегодня я наконец-то готов представить результат своего небольшого исследования, которое я провел с помощью написанного мной кода. (Оно доступно по ссылке).
Получился рейтинг 5 821 актера по сумме кассовых сборов фильмов с их участием за 20 лет: с 2003 по 2023 год.
Итак, вот топ самых кассовых актеров за 20 лет:
🥇Елена Яковлева — фильмы с ее участием собрали ₽18,3 млрд, всего с 2003 года в прокат был выпущен 21 фильм с ней;
🥈Сергей Гармаш — ₽15,1 млрд, 39 фильмов;
🥉 Александр Петров — ₽12,2 млрд, 22 фильма.
💪 Самым плодовитым актером стал Гоша Куценко, с 2003 года он снялся в 58 фильмах.
Как я проводил исследование:
1. Написал код, который прошелся по всем карточкам фильмов на kinobusiness.com и собрал нужные данные в таблицу;
2. Обработал их и структурировал;
3. Нарисовал дашборд в Datalens: для каждого актера суммировал кассовые сборы его фильмов.
Долго решался на подход к machine learning — пугал миф о высоком входном математическом барьере — и на прошлой неделе решился-таки: начал курс на платформе Stepik. Оказалось, что не так страшен ML, как его малюют. По крайней мере, на старте.
Но обо всем по порядку.
Я скачал большую табличку данных (датасет) с сайта Kaggle.com. В датасете — данные по 10 700 подержанным авто марки BMW из Соединенного Королевства. Столбцы в таблице такие: год производства, пробег, литраж двигателя, трансмиссия, еще несколько признаков и цена.
Задача: на основе имеющихся признаков создать модель, которая будет предсказывать цену авто.
Как вы интуитивно понимаете, такое предсказание будет не только простым, но и очень неточным. Если мы сравним среднюю стоимость по году с реальными данными, то в случае каждого авто получим ошибку модели: разницу между нашим предсказанием и реальной стоимостью авто. Где-то эта ошибка будет 10 тыс., где-то 3 тыс. В среднем она будет очень большой.
Чтобы снизить ошибку модели, можно добавить в модель признаков. То есть, посчитать среднее не только по году, но и, например, по группе пробега для каждого года. Получится примерно так: для авто выпуска 2013 года и пробега от 10 до 20 тыс. км средняя стоимость будет 20 тыс. у.е.
Добавив новый признак, нам удалось чуть снизить ошибку предсказания. И признаки можно добавлять, пока мы не получим минимальную ошибку, которая возможна для наших данных.
Тут все логично: в машинном обучении анализом различных признаков, их влияния на прогноз и снижением ошибки занимается не человек, а компьютер. Причем от самого исследователя, в случае простых моделей, не требуется каких-то суперзнаний или супермозга. Ведь чтобы пользоваться микроволновкой, не нужно знать теорию микроволн – нужно просто уметь нажимать на кнопки. Благо в Python существуют библиотеки, которые супермозг уже разработал.
Для обучения своей модели я использовал библиотеку CatBoost от Яндекса. На данных подержанных авто мне удалось добиться ошибки в 6% — она означает, что в среднем разница между предсказанием и реальной ценой моей модели составила 6%.
В очередной раз убедился, что любые самые сложные вещи в IT начинаются с интуитивно понятных любому, закончившему среднюю школу, человеку. Даже такому как я – чистому гуманитарию, который вспомнил, как складывать дроби, только полгода назад. Так что на самом деле Data Science – это не башня из слоновой кости и для старта нужно не так много знаний, как кажется. А далее – дело вашего любопытства, усидчивости и упертости.
Please open Telegram to view this post
VIEW IN TELEGRAM
👋 Друзья, сегодня мой последний день работы в коммуникациях "Газпром-Медиа Холдинга".
Три года, которые я провел здесь, стали для меня серией испытаний — как в личном, так и в профессиональном плане.
Опыт в пиаре крупнейшего российского холдинга — это возможность поработать над крупнейшими в России медиапроектами, с лучшими продакшен-командами. Такой опыт делает человека сильней и мудрей абсолютно во всех отношениях. Нужно выкладываться каждый день, находить выход из любых тупиковых ситуаций. Заповедь стоиков тут умножается на два: мало выжать максимум из того, что находится в твоей зоне контроля. Надо выжать максимум из всех зон.
Кроме дирекции по коммуникациям ГПМХ, я завершаю и другой этап: из PR и SMM, в которых я проработал 12 лет, перехожу в аналитику данных. Лично для меня это новый вызов: буду подключаться к базам данных, настраивать пайплайны и анализировать retention rate. Периметр холдинга я не покидаю: перехожу в одну из его компаний, о которой сообщу позже.
Три года, которые я провел здесь, стали для меня серией испытаний — как в личном, так и в профессиональном плане.
Опыт в пиаре крупнейшего российского холдинга — это возможность поработать над крупнейшими в России медиапроектами, с лучшими продакшен-командами. Такой опыт делает человека сильней и мудрей абсолютно во всех отношениях. Нужно выкладываться каждый день, находить выход из любых тупиковых ситуаций. Заповедь стоиков тут умножается на два: мало выжать максимум из того, что находится в твоей зоне контроля. Надо выжать максимум из всех зон.
Кроме дирекции по коммуникациям ГПМХ, я завершаю и другой этап: из PR и SMM, в которых я проработал 12 лет, перехожу в аналитику данных. Лично для меня это новый вызов: буду подключаться к базам данных, настраивать пайплайны и анализировать retention rate. Периметр холдинга я не покидаю: перехожу в одну из его компаний, о которой сообщу позже.
Теперь я буду трудиться здесь, не покладая sql запросов.
Для меня это большой шаг - переход из digital-коммуникаций в data аналитику.
Как я к этому пришел?
Если коротко, однажды мне перестало хватать интерфейсов аналитических систем, которыми приходилось пользоваться для нужд SMM. И я заглянул под капот. Понял, как много можно сделать с сырыми данными, если уметь их добывать и раскладывать. Стал разбираться, учиться и затянуло.
С десяток собеседований, тестовые, pet-проекты и вот теперь я тут. Уверен, впереди много интересного!
Please open Telegram to view this post
VIEW IN TELEGRAM
Друзья, всем привет! Давно не виделись 😊
Я к вам не с пустыми руками.
Чтобы набить руку в дата-разработке, я тут запустил бота, который круглосуточно и без выходных мониторит телеграм-каналы о киноиндустрии.
Бот оценивает просмотры, репосты и каждые 2 часа публикует самые динамичные посты в канал. Так что если у вас мало времени, отличная возможность следить за повесткой, не читая все публикации всех подряд каналов.
Еще в начале каждого дня в канале публикуется топ дня. А специально для админов, SMM и PR аналитиков вся статиcтика аккуратно складируется в Google Таблицу, туда можно зайти и увидеть статистику по всем-всем постам и каналам за день.
В планах — добавить еще больше метрик, визуализировать их, а также начать анализировать тексты — их тематику и тональность.
Я к вам не с пустыми руками.
Чтобы набить руку в дата-разработке, я тут запустил бота, который круглосуточно и без выходных мониторит телеграм-каналы о киноиндустрии.
Бот оценивает просмотры, репосты и каждые 2 часа публикует самые динамичные посты в канал. Так что если у вас мало времени, отличная возможность следить за повесткой, не читая все публикации всех подряд каналов.
Еще в начале каждого дня в канале публикуется топ дня. А специально для админов, SMM и PR аналитиков вся статиcтика аккуратно складируется в Google Таблицу, туда можно зайти и увидеть статистику по всем-всем постам и каналам за день.
В планах — добавить еще больше метрик, визуализировать их, а также начать анализировать тексты — их тематику и тональность.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Робот мониторит киноиндустрию 🎞
Этот канал ведет робот: 24/7 он читает сообщения каналов про киноиндустрию и публикует лучшие из них.
Разработчик робота: @VorobievIvan
Разработчик робота: @VorobievIvan
Forwarded from Робот мониторит киноиндустрию 🎞
⛅️ О чем писали каналы о киноиндустрии в январе 2024 в облаке слов