Telegram Web
Несколько лет назад я написал программу для нового на тот момент факультета игровой аналитики в GeekBrains. С тех пор, конечно же, утекло много воды, программу меняли неоднократно, но студенты все же были и учились. Только что был на защите дипломных проектов первого набора. Ощущения специфичные, конечно, как будто прособеседовал толпу джунов. Сказать можно всякое, и про ребят, и про процесс, и про сам результат обучения. Но одна мысль все же настойчиво крутится в голове -- "обязательно должны быть рекомендации команде". И каноничная задача "нужно просто повысить арпу" обрастет конкретикой, а кажущиеся разрозненными части игры быстро обретут связи.
Меж тем, GI и SberGames окончательно умерли, Plarium закрывает офис, Белка и Playgendary уже. Azur и Плейкоты открывают офисы на Балканах с вполне понятной перспективой. У Nexters вроде похожие планы, по слухам. Этак скоро захочешь устроить встречу аналитиков или дата-завтраки, или митап какой, и не получится. Не так чтобы это и раньше получалось, правда, но все же.
Пролистал недавнюю Game Data Science от Anders Drachen et al. По общей структуре напомнила мне учебники по машинному обучению (то же ISL Хасти и Тибширани, например), только с примерами из геймдева. Я, конечно, больше хотел бы обратной структуры -- какие бывают задачи у аналитиков в геймдеве и какими алгоритмами их можно решать. Но, кажется, это утопия. Вторая примечательная особенность книги -- в ней f2p и мобильные игры если и не игнорируются, то в лучшем случае упоминаются в одном из параграфов введения. Не говоря уже о бизнес-смысле задач, для которых могут быть использованы описанные алгоритмы.

Тем не менее основные темы и идеи раскрываются неплохо -- снижение размерности, кластеризация, обучение с учителем и метрики качества модели, нейронки, визуализация. Очень порадовал блок по sequenсе analysis и упоминание пакета TraMineR для R. Мы как раз с одним ГД думаем посмотреть на бои с этой точки зрения (как минимум опробую подход). Да и для кластериации пользователей выглядит хорошо. А вот отсутствие самой концепции когортных метрик расстроило, как и игнорирование анализа выживаемости. Впрочем, если f2p/gaas изначально игнорируются, то не удивительно.

А еще интересно было посмотреть списки литературы к каждой главе. Какие книги есть по теме анализа данных в геймдеве, в каких журналах публикации, какие конференции. Списки не впечатляют, много откровенно древнего или не очень релевантного, но хоть что-то.

В общем, книжка получилась симпатичная и читать ее точно надо. Но, на мой взгляд, много ждать все же не стоит -- это скорее справочник по инструментам, чем какое-то введение в тему и доменную специфику.

#books
👍32
Appannie (data.ai), конечно, смешные. Увидел, что в один из месяцев ревеню по проекту сильно больше реального. Спросил, как так. Говорят, что у них все считает какая-то спец.моделька, и все цифры, которые они показывают — это estimates. Ладно, это еще как-то можно понять, у appmagic такая же история.
Но потом выяснилось, что в бесплатной версии appannie цифры более похожи на реальные. Спросил еще раз, как так. Ответили:
Regarding your question, the reason that the free account in the screenshot that you provided is showing the same value is because this is coming from a connect report. Connect takes data directly from google play store account so those will match actuals.
The screenshot that you provided is from an intelligence report from data.ai which uses estimates.
We are always working on improving our estimates. This is how the model behaves and it is expected. We cannot guarantee that the actuals will be the same as our estimates. We are always working on improving our estimates.

То есть у ребят есть нормальные данные, но премиум-пользователям они все равно дают оценки из модели. И не видят в этом никаких неувязок. Прелестно.
🔥3😁1😢1
Временами просматриваю/модерирую канал analytics в ODS. И чем больше там тредов про A/B-тесты, ссылок на статьи ребят из VK и Avito, тем сильнее у меня ощущение, что я как-то отстал от жизни. Как отечественная психология использует преимущественно стат.аппарат практически столетней давности, так и я застрял где-то в лучшем случае в начале десятых годов. Классическая фреквентистская статистика, мощность и размер эффекта, перестановочные тесты -- да. Оценка мощности тестов в симуляционных экспериментах, линеаризация, дельта-метод, инструменты снижения дисперсии -- уже практически нет. И это я еще не смотрел внимательно в сторону causal inference. Оно местами сильно напоминает квазиэкспериментальные дизайны, особенно когда про синтетический контроль речь идет, но все же, своя атмосфера и тоже надо разбираться.
Последние дни работаю над большим отчетом по тесту метагейма на одном из новых проектов. Люблю такие периоды -- и раньше, и позже фокус больше на каких-то конкретных метриках и фичах, а тут мы впервые смотрим в целом на поведение игроков и то, как они воспринимают предложенную мету. И в который раз убеждаюсь, что начинать надо с метрик удержания и вовлечения. С них строится база понимания, на которую уже добавляются слои и детализация в виде "а как и за что (не)платят", "а на что тратят ресурсы", "а насколько вообще интересны базовые игровые циклы" и тому подобное. Я, как правоверный гештальтист, везде вижу изомофизм и проекции, и, на мой взгляд, подобные глобальные отчеты так или иначе должны воспроизводить опыт пользователя. В конце концов, пользователь сначала видит игру и как-то играет в нее, потом только (не)возникает решение заплатить, и уже после него мы можем смотреть детализацию, что именно хорошо или плохо с удержанием или монетизацией. В этом отчете мы начали с оценки окупаемости, потом посмотрели в экономику и боевку, и все равно в какой-то момент уперлись в вопрос времени жизни и активности платящих пользователей.

Хотя главное при всей этой оптике, конечно же -- не забыть сделать конкретные рекомендации, которые команда может взять в работу или как минимум обсудить. Грешен, что сказать.
4
Случился тут у меня казус. Тестируем один проект, а там конверсия в платящих на порядок выше стандартных для f2p проектов. Такая кампания и дизайн теста, так что ожидаемо. Но как оценивать ретеншен в такой ситуации? С одной стороны, вроде как проект, монетизация, все дела, смотрим просто на ретеншен. В других проектах ведь тоже есть и какая-то доля платящих, и качество монетизации. С другой стороны, ретеншен и мотивация оставаться у платящих могут иметь дополнительные аспекты. И то, что им нравится игра настолько, что они готовы не только играть, но и платить. И то, что они уже вложили какие-то деньги и для них увеличилась стоимость переключения (буквально сегодня о подобном писал Якубенков), и что-нибудь еще. При большой искусственной (за счет спец.кампании) доле платящих все это может искажать данные по удержанию.

По ретеншену я решил примитивно -- стал смотреть только неплатящих и по ним сравнивать с другими проектами. А вот исследовать мотивацию платящих и как она влияет на ретеншен уже сложнее -- например, было бы интересно нагнать пользователей по кампаниям с оптимизацией на платящих и выключить платежку. Но кто нам даст провернуть такое (с другой стороны, у нас тут этот эксперимент сторы уже провернули, можно ист.данные попробовать поднять). Или как-то поспрашивать платящих пользователей, насколько их удерживают уже сделанные платежи. Наверное еще и у поведенческих экономистов могут быть такие исследования, но перекладывать их опыт на f2p отдельная головная боль все же.

Хм. Кажется, я знаю, с какими неприличными предложениями можно сходить к нашей UX-лабе.
2
Обсуждали с одной из команд стоимость прокачки пушек. И у них достаточно специфичная стоимость одного левелапа -- 300000 в одной валюте, 500 в другой. И аргументов для таких порядков и такого соотношения как минимум два, несмотря на риски инфляции и последующий возможный переход к idle-like ценам типа 1.65ab.

Во-первых, разный порядок валют больше запутывает пользователей и немного усложняет им процесс выведения логики стоимости прокачки и тому подобного. Мы хорошо знаем, что пользователи у нас умные, мгновенно вычисляют наиболее эффективные пути, расписания акций и соотношение валют, в результате расчеты в гдд оказываются сильно оптимистичнее реальности. И разный порядок как раз немного наводит тумана.

Вторая причина --- порядок цен ассоциируется / задает субъективную стоимость объектов. Когда одна валюта измеряется в тысячах, а другая в единицах, вторая кажется более ценной. И с другой стороны, когда мы что-то продаем за тысячи единиц, это кажется более дорогим, чем если бы мы это продавали за единицы.

В-третьих, мне тут вспомнился достаточно спорный (на мой взгляд) метод оценки субъективной ценности офферов через стоимость чашки кофе, который мы использовали при планировании цен на офферы в другом проекте.

Оба аргумента кажутся субъективно понятными и логичными, но лично у меня все же есть какой-то легкий скепсис. В целом это все тянет на достаточно любопытное исследование, в котором стоит контролировать много дополнительных факторов: порядок цен в национальных валютах, принятые порядки, как работает эффект привязки в мультивалютной цене и в одновалютной и т. д. Есть мнение, что пользователи и умнее, чем нам кажется, и что цена скорее относительная сущность, чем абсолютная (правда, непонятно, что будет основанием сравнения).
👍31
ужасно, просто ужасно. и дисклеймер не помогает.
Forwarded from DogDog (Dmitry Filatov)
Не открывайте эти ссылки, иначе весь день работать не будете.

Тут можно прямо в браузер поиграть в
- Counter-Strike 1.6 https://play-cs.com/ru/servers
- Quake III Arena http://www.quakejs.com/
- Diablo https://d07riv.github.io/diabloweb/
- Caesar III https://epicport.com/ru/caesar3
- Starcraft http://pirrate.me/StarCraft/
- десяток старых и культовых игр https://dos.zone/
👍7
App2Top выпустили второе исследование merge-игр, на этот раз про перспективы разработки merge2 / merge3. Исследование провели ребята из AppMagic. Я, признаться, нежно люблю мерджи и когда я читал предыдущий обзор жанра (от App2Top), оказалось, что я играл во все ключевые тайтлы, начиная от triple town и до относительно свежих top war.

Исследование симпатичное и во многом совпадает с моими собственными ощущениями от жанров и их перспектив. Из того, что понравилось: идея, что merge-3 это по сути merge-5 и менеджмент предметов на поле, я именно с этим и столкнулся, когда играл в Merge Dragons. Любопытный кейс косвенной оценки успешности Merge Mansion через анализ публичных отчетов. Разумное и методологически осмысленное игнорирование гибридных игр типа Top War (чувствую в этом руку Максима Саморукова, он любит говорить про игры, которые сначала прикидываются одним жанром для удержания, а потом оказываются совсем другим -- типа The Ants или Top War). Очень понравились конкретные формулировки по ретеншену, размеру команд и требованиям к командам.

Несколько смутили скомканные формулировки типа "есть игры, которые сочетают оба варианта, но их перформанс невелик" -- да, есть ссылка на AppMagic, но хотелось хотя бы краткой формулировки, как именно они сочетают оба варианта, и идеи, почему не перформят. Еще зацепило, что Medieval Merge (весьма милая, к слову, уже пару месяцев играюсь), упоминается сразу в двух типах merge-2, хотя вроде как ответвления специально выделены как не пересекающиеся. Откуда взяты данные по размерам команд и ретеншену -- тоже интересно.

Ключевая особенность этого исследования (да и ему подобных) -- то, что они идут от геймдизайна и анализа механик. Наверное, это оптимальный путь, когда мы рассматриваем конкретную нишу и жанр. Но вот возможно ли (а если возможно, то как) построить исследования рынка и генерацию идей для новых проектов на основе количественных данных -- вопрос, который все больше занимает меня в последнее время.

#research
👍1
Вячеслав Зотов из WhaleKit написал настоящий лонгрид про тесты хи-квадрат. В статье последовательно рассматривается, что за распределение хи-квадрат, семейство тестов на основе этого распределения, связь с z-тестом, рекомендуемый размер выборки и, в завершение всего, применимость тестов хи-квадрат к анализу воронок.

Очень понравилась структура статьи, все как в лучших домах. В частности, культура аргументации: на каждый тезис есть или пример, или симуляционный эксперимент и/или ссылка на CrossValidated и аналогичные ресурсы, где преимущественно разбирается математическая часть. Ссылки, наверное, самое важное для меня в этой статье, следом идет код экспериментов.

Тем не менее, кто-то из хабражителей оставил комментарий, с которым я, признаться, согласен: "ощущение, что это пятая статья из цикла. Напишите, пожалуйста, первые четыре". Действительно, статью можно было разделить на несколько частей, а кое-что даже и сократить.

Ряд пунктов вызвал некоторое сомнение. По большей части это блоки, касающиеся мощности тестов. Так, тезис "если в ячейке меньше 5 наблюдений, то можно просто умножить таблицу на нужное число" сразу навевает мысли о p-хакинге, мы так в студенчестве баловались. В параграфе про размер выборки также есть фраза "с ростом размера выборки статистика растет линейно, при этом p-value стремится к 0 и рано или поздно тест покажет статистически значимые отличия при исходных пропорциях". Кажется, что это очевидно, что с ростом выборки растет мощность и даже самые маленькие различия в какой-то момент могут быть признаны значимыми, просто потому что так сконструирован тест. Собственно именно поэтому в классическом анализе мы определяем размер эффекта и рассчитываем необходимую выборку при заданных мощности и значимости.

Блок про анализ воронок масштабный (с трудом продрался через него, честно говоря) и достоин отдельной статьи. Хи-квадрат как критерий согласия позволяет сравнивать категориальные данных больше чем 2*2 и это можно использовать при сравнении воронок, особенностям такого анализа и посвящен весь этот блок. Однако сама задача вызывает у меня некоторое недоумение. Зачем сравнивать воронки целиком, когда проще и нагляднее сравнить именно конверсию в какой-то конкретный шаг? Нас же обычно интересуют конкретные шаги и точечные изменения в воронках.

Всегда интересно, о чем думают коллеги по цеху. Аналитики в геймдеве почему-то очень скрытные. В целом же статья лично для меня стала прекрасной иллюстрацией, что если что-то придумал -- делай сразу. Я года полтора-два назад хотел своим коллегам на каком-нибудь R&D-дне рассказать про хи-квадрат, но много откладывал. В результате Вячеслав "успел раньше". Что ж, как минимум, я теперь смогу опираться на его, бесспорно, богатый материал.

#stats
👍9
Ребята из MyTracker выпустили промо-статью, где рассказывают про подходы к предсказанию LTV. В статье рассматриваются четыре способа -- катбустом, линейной регрессией, коэффициентами и экстраполяция логарифмом. Я в свое время пробовал как минимум три из четырех и их сочетания, разве что катбуст не шатал, поэтому было интересно почитать про чужой опыт и насколько он совпадает с моим. Из больших плюсов -- есть код и данные, пусть и анонимизированные, можно скачать и посмотреть внимательнее. А использование для прогноза данных за первые 8 дней жизни девайса даже в какой-то мере совпадает с моими наблюдениями.

Несколько спорные для меня нюансы -- прогнозирование ведется по девайсам (а не по когортам), притом, только по платящим девайсам. Это значит, что оценивать ROI таким образом будет достаточно сложно, как бы ребята ни говорили о хорошем качестве предсказания LTV платящих. Потому что доля платящих сама по себе изменчивая величина, как и ее динамика. Не говоря уже о том, что далеко не все девайсы платят в заданные восемь дней, хотя делают вклад в конечный LTV и поэтому тоже участвуют в модели, по словам авторов. Поэтому, лично на мой взгляд, корректнее работать с cumARPU когорт, а платящих, количество платежей или еще что-то добавлять в виде дополнительных переменных или весов .

Второй, менее явный, но намного более противный момент -- приложения разные и у всех разная эффективность монетизации. Насколько корректно очень разные приложения использовать в одной модели без использования спец.параметров (например, какой-то жанр или тип монетизации, или возраст проекта, или структура трафика) -- я не знаю, лично у меня есть сомнения и не очень приятный опыт. А если использовать спец.параметры, то возникают сложности с применением модели к проектам, где эти параметры неизвестны.

К сожалению, авторы не сделали общий слайд с сравнением моделей и каким-то заключением, что лучше, а что хуже и в каких условиях. При этом утверждают, что у них в MyTracker получается предсказывать LTV с точностью в 80-90% (то, что качество показанных в статье моделей сильно ниже, не смущает, явно ведь не все тонкости рассказали). Но это я, возможно, уже слишком много хочу от промо-материалов.
👍5
Очень приятно пообщался с ребятами из AppMagic. Говорили про то, на что смотреть при мониторинге рынков, какие метрики могут быть интересны и так далее. Одна из первых тем -- про разные механики, стоит ли их мониторить и можно ли из них собрать успешную игру. Условно, насколько может быть полезен конструктор в GameRefinery, в котором можно набрать фичи и получить определенную оценку проекта. Жаль, подписки нет, а тестировать косвенно весьма замудрено будет.

Проговорил достаточно привычную и очевидную мысль, что механики и геймплей -- важны для удержания пользователя в первые дни. А потом уже включается мета и она совсем не обязательно должна продолжать базовые геймплейные механики. Иначе не было бы игр-оборотней и всего зоопарка баттлеров
Поэтому если мы хотим успешный проект, то надо мониторить не механики, а конструкции меты и монетизации. Грубо говоря, мы продаем только харду или спамим офферами, монетизация у нас в контенте или в прокачке, как сильно пользователи играют в мету или и так далее. Лично в моей работе все это идет под флагом "анализ рисков меты" и постепенно складывается в набор вопросов и пунктов, которые надо контролировать при обсуждении концепта.

Второй аспект метагейма (и тут я ступаю на скользкую дорожку фантазий) -- это потребности пользователя и насколько мета их удовлетворяет. Это может быть и челлендж, и исследование, и даже желание заплатить. При этом я слабо верю в классификации наподобие типов по Бартлу. Мне кажется, она применима для грубой сетки, но слишком абстрактная. В конце концов, какая мотивация у играющих в Sims, обставляющих дом в Homescapes или подбирающих наряды в Love Nikki? Сетка "накопители / киллеры / исследователи / социальщики" плохо натягиваются на них. А психодиагностика нам напоминает, что шкальные модели гибче, чем типологические.

При этом оценить "насколько мета удовлетворяет" можно и мы это весьма регулярно делаем -- тут и окна актуальности контента, и насыщенность игрового времени яркими событиями, и персонализированность офферов, и так далее. А вот выявление, какие вообще могут быть потребности пользователя -- намного сложнее, я сейчас только-только нащупываю этот путь в тумане отсутствующих данных.
👍8
Недавно общались "анонимными игровыми аналитиками". Задушевный вопрос "а ты тоже за продюсерами бегаешь с паяльником?" заставил меня подумать о животрепещущем -- о роли продюсера в жизни аналитика. С одной стороны, хорошо, когда на проекте есть тревожный продюсер и/или гд, или же хотя бы проджект. Они миллион раз напишут, побеспокоятся о мельчайших деталях и случайных флуктуациях, роадмап будет на сто раз обговорен и даже сниться начнет. Главное, научиться говорить "спокойно, все учтено, вот тебе график" и держать успокоительное или островное очень-топленое-молоко под рукой.

С другой стороны -- очень уж это расслабляет. Теряешь навык форсированных расспросов о релизе, его целях и фичах. В результате потом можно получить ситуацию, когда в роадмапе аналитики нет вообще или она странная, а геймдизы отчаянно нуждаются в данных, но почему-то молчат и все равно продолжают растить развесистую мету. Штош, придется освежать навыки.
2
Буквально в субботу рассказывал студентам про фреймворк AARRR и что сейчас все больше внимания уделяется удержанию, чем привлечению. А сегодня в рассылке от Deconstructor of fun вижу постмортем Clash Quest -- одной из трех игр-франшиз от Supercell. Игра была в софтлонче 16 месяцев (Supercell, однако, могут себе позволить), последний радикальный апдейт с обнулением прогресса и компенсациями, судя по ютубу, был в июле.

Так вот. Авторы DoF считают, что причина закрытия проекта -- "we think that Clash Quest never achieved good enough retention [...]. And because of that, it was never able to build a big enough LTV to face the insanely high CPIs of the Puzzle and Puzzle RPG genres". Удержание лишь один из вариантов роста LTV, но, видимо, в духе времени.
Смотрю на результаты опроса пользователей. На вопрос "а почему не покупаешь?" самый частотный ответ: "слишком дорого". Для меня это самое интересное -- пользователь находится в неопределенности и не может знать о себестоимости предлагаемого контента в оффере. Однако при этом он как-то все равно оценивает, дорого для него или нет. Мне кажется, тут можно много экспериментировать, чтобы с помощью продукта и способов показа офферов создавать привязки и формировать субъективные оценки стоимости офферов пользователем.

Из самых примитивных решений -- показывать, с какими предметами были те, кто у него выиграл. Или формировать вилку, предлагая несколько офферов разной цены. В идеале еще хорошо бы спросить самого пользователя, как он понимает, что ему дорого, с чем сравнивает. И так далее. Надеяться же на то, что пользователь помнит стоимость харды в банке и ее использует как бейслайн, мне кажется излишне оптимистичным.
5
Развлекаюсь с данными Appannie. Задумчиво смотрю на всякие company_name, company_country_code, publisher_name и прочую инфу о том, кто делает и издает игры. С одной стороны, я люблю всякие социальные графы, да и интересно, как устроен рынок. А с другой — бесполезное же знание, ничего ценного из него особо не извлечь. Печаль.
В чате гейм-дизайнеров, который я регулярно просматриваю, народ вспомнил пару древних браузерных игрушек, в которых нет прямого управления над игровым процессом. Не Majesty, конечно, но тоже забавно. Попутно разбудили воспоминания об еще одной игрушке -- https://rednuht.org/genetic_cars_2/. Кажется, это новая версия, так как интерфейс и логика немного отличаются, но идея все та же. Создаем мир, определяем степень мутации в каждом поколении, а игра генерирует двухколесные машинки, чтобы они проехали как можно дальше в заданном мире. По сути это визуализация генетического алгоритма, который старается оптимизировать расстояние, понемногу варьируя характеристики машины (гены). Вот прямо сейчас я вижу, что алгоритм нащупал идею увеличения задних колес и ее тестирует.
2025/07/12 09:22:18
Back to Top
HTML Embed Code: