ABBA_TESTING Telegram 83
Привет, товарищи-статистики!

—ВВОДНАЯ—
Я должен был написать продолжение про мета-анализ общей зависимой гипотезы, но, во-первых, на телеграфе с некоторых пор баг, который не позволяет ставлять картинки; во-вторых, я уже пишу статью на Хабр про мета-анализ, где про зависимую гипотезу будет в том числе. Идет статья со скрипом, мои рецензенты как следует дали мне продышаться по методу Фишера, переписываю в том числе и ту часть.

Сегодня напишу по теме, про которую долго думаю, про которую меня позавчера спросили на финальной встрече потока (спасибо за вопрос, Кристина), да и еще к тому же Юра дал ссылку на пост про MDE, который тож триггернул. В общем, пора!

Итак, будем говорить о том, что я для себя называю как "макс. эффект / эффект, которого "скорее всего точно нет"" (возможно, придумываю колесо и все уже есть, просто не встречал что-то подобное). И должен сказать, что нет уверенности в том, чем хочу поделиться.

—ТЕМА ПОСТА—
Вводные:
- Мы дизайним тест: пускай сигма = 2, классические параметры альфа, мощности (0.05 / 0.8) и доступный размер аудитории на группу по 100, получаем MDE = 0.792
- Помним, что мощность определяется как вероятность обнаружить эффект, если он есть. Проблема в том, что на практике мы, конечно, не знаем, есть ли эффект на самом деле или нет, даже с учетом стат. значимого теста (ошибка 1-го рода).

Так вот, меня давно очень интересует на этапе дизайне другое значение MDE, когда максимизируешь мощность, например, до 0.99, назовем это MDE №2 [1.212]. Получаем при этом ошибку 2-го рода 1%.

Почему думаю об этом? Вот мы проводим тест и он не стат. значимый (тут я специально проводил А/А). При этом обычное дело - строим дов. интервал эффекта, скажем [-0.12, 1.08], однако он говорит лишь о том, что с некоторой надежностью (1-alpha) охватывает истинный эффект. Его правая граница, 1.08, может принимать и другие значения, но в принципе с оговорками она дает нам оценку максимального эффекта, так как интервал мог быть и другим.

Но что если зайти со стороны MDE №2? А он, кажется, про "эффект, которого "точно" нет". Почти, так как по логике получается, у нас, как будто, уже 99% против 1%, что такого MDE №2 и более эффекта нет в рамках нашего результата. Более того, А/А симуляция доверительных интервалов эффекта с точки зрения абсолютного максимального значения приближалась к этому MDE №2.

То есть такая мера как MDE №2 = 1.212 в рамках не стат.значимого теста дает, даже с учетом мощности всего 0.99 оценку вашего максимального выхлопа, если ошибка 2-го рода имела место. При этом он прям маловероятен. Ни больше, ни меньше. По идее.

И вроде как оно тем лучше дов. интервала эффекта в таком контексте, что интервал вариативен и правая сторона гуляет, (что можно попробовать решить через бутстрап, например), а MDE №2, условно, предел. Только надо балансировать этот MDE №2 на полученные размеры групп, все-таки плюс-минус размер будет разбегаться от ожидаемого.

Зачем оно нужно?
Дело в том, что тест не запрещает катить нестат. значимый результат, более того, такое может произойти. И вот подобная оценка как будто способна дать. доп. информацию о том, а стоит ли это того? Если конкретизировать: "твой максимум c вероятностью 1% это 1.212, при этом может стать хуже (по дов. интервалу) на -0.12 + ресурсы на раскатку, как тебе с этим?"

Проблемы:
- Возможно, это все-таки "говно без задач" + я мог ошибиться в рассуждениях.
- Мощность мощно изменить c 0.99 на 0.9999 и т.д. Как правильно? Правильно то, что вы принимаете для себя как предел ошибки 2-го рода, Beta. C альфой же для себя как-то разобрались :)
- Надо помнить, мы можем говорить о пределе только ссылкой на набор наших параметров в рамках теста: сигма, альфа, аудитория. Оно не может быть обобщающим.



tgoop.com/abba_testing/83
Create:
Last Update:

Привет, товарищи-статистики!

—ВВОДНАЯ—
Я должен был написать продолжение про мета-анализ общей зависимой гипотезы, но, во-первых, на телеграфе с некоторых пор баг, который не позволяет ставлять картинки; во-вторых, я уже пишу статью на Хабр про мета-анализ, где про зависимую гипотезу будет в том числе. Идет статья со скрипом, мои рецензенты как следует дали мне продышаться по методу Фишера, переписываю в том числе и ту часть.

Сегодня напишу по теме, про которую долго думаю, про которую меня позавчера спросили на финальной встрече потока (спасибо за вопрос, Кристина), да и еще к тому же Юра дал ссылку на пост про MDE, который тож триггернул. В общем, пора!

Итак, будем говорить о том, что я для себя называю как "макс. эффект / эффект, которого "скорее всего точно нет"" (возможно, придумываю колесо и все уже есть, просто не встречал что-то подобное). И должен сказать, что нет уверенности в том, чем хочу поделиться.

—ТЕМА ПОСТА—
Вводные:
- Мы дизайним тест: пускай сигма = 2, классические параметры альфа, мощности (0.05 / 0.8) и доступный размер аудитории на группу по 100, получаем MDE = 0.792
- Помним, что мощность определяется как вероятность обнаружить эффект, если он есть. Проблема в том, что на практике мы, конечно, не знаем, есть ли эффект на самом деле или нет, даже с учетом стат. значимого теста (ошибка 1-го рода).

Так вот, меня давно очень интересует на этапе дизайне другое значение MDE, когда максимизируешь мощность, например, до 0.99, назовем это MDE №2 [1.212]. Получаем при этом ошибку 2-го рода 1%.

Почему думаю об этом? Вот мы проводим тест и он не стат. значимый (тут я специально проводил А/А). При этом обычное дело - строим дов. интервал эффекта, скажем [-0.12, 1.08], однако он говорит лишь о том, что с некоторой надежностью (1-alpha) охватывает истинный эффект. Его правая граница, 1.08, может принимать и другие значения, но в принципе с оговорками она дает нам оценку максимального эффекта, так как интервал мог быть и другим.

Но что если зайти со стороны MDE №2? А он, кажется, про "эффект, которого "точно" нет". Почти, так как по логике получается, у нас, как будто, уже 99% против 1%, что такого MDE №2 и более эффекта нет в рамках нашего результата. Более того, А/А симуляция доверительных интервалов эффекта с точки зрения абсолютного максимального значения приближалась к этому MDE №2.

То есть такая мера как MDE №2 = 1.212 в рамках не стат.значимого теста дает, даже с учетом мощности всего 0.99 оценку вашего максимального выхлопа, если ошибка 2-го рода имела место. При этом он прям маловероятен. Ни больше, ни меньше. По идее.

И вроде как оно тем лучше дов. интервала эффекта в таком контексте, что интервал вариативен и правая сторона гуляет, (что можно попробовать решить через бутстрап, например), а MDE №2, условно, предел. Только надо балансировать этот MDE №2 на полученные размеры групп, все-таки плюс-минус размер будет разбегаться от ожидаемого.

Зачем оно нужно?
Дело в том, что тест не запрещает катить нестат. значимый результат, более того, такое может произойти. И вот подобная оценка как будто способна дать. доп. информацию о том, а стоит ли это того? Если конкретизировать: "твой максимум c вероятностью 1% это 1.212, при этом может стать хуже (по дов. интервалу) на -0.12 + ресурсы на раскатку, как тебе с этим?"

Проблемы:
- Возможно, это все-таки "говно без задач" + я мог ошибиться в рассуждениях.
- Мощность мощно изменить c 0.99 на 0.9999 и т.д. Как правильно? Правильно то, что вы принимаете для себя как предел ошибки 2-го рода, Beta. C альфой же для себя как-то разобрались :)
- Надо помнить, мы можем говорить о пределе только ссылкой на набор наших параметров в рамках теста: сигма, альфа, аудитория. Оно не может быть обобщающим.

BY Не AБы какие тесты


Share with your friend now:
tgoop.com/abba_testing/83

View MORE
Open in Telegram


Telegram News

Date: |

“[The defendant] could not shift his criminal liability,” Hui said. Each account can create up to 10 public channels Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. How to create a business channel on Telegram? (Tutorial) During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content.
from us


Telegram Не AБы какие тесты
FROM American