DS_INTERVIEW_LIB Telegram 1065
🔎 Как и почему возникает проблема каллибровки вероятностей в моделях машинного обучения

Модель может выдавать хорошие предсказания с точки зрения точности, но её оценка вероятностей быть плохо откалиброванной — то есть, предсказанные вероятности не соответствуют реальной частоте событий.

Во многих задачах (медицина, финансы, риск-менеджмент) важна не только метка класса, но и уверенность модели. Например, предсказать, что событие с вероятностью 0.9 действительно случится примерно в 90% случаев.

Почему возникает несоответствие:
➡️ Используемые функции потерь (например, cross-entropy) и оптимизаторы не гарантируют идеальную калибровку.
➡️ Модели могут быть избыточно уверены (overconfident), особенно глубокие нейросети с ReLU и batch normalization.
➡️ Недостаток данных или несбалансированность классов искажает распределение вероятностей.

Методы исправления

Постобработка:
➡️ Плацинг (Platt Scaling) — логистическая регрессия по выходам модели.
➡️ Изотоническая регрессия — монотонная калибровка.
➡️ Температурное шкалирование (Temperature Scaling) — масштабирование логитов перед softmax.

Встроенные методы:
➡️ Использование бэйесовских моделей или методы, учитывающие неопределённость (например, dropout в режиме теста).
➡️ Обучение с учётом калибровки (calibration-aware loss).

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2



tgoop.com/ds_interview_lib/1065
Create:
Last Update:

🔎 Как и почему возникает проблема каллибровки вероятностей в моделях машинного обучения

Модель может выдавать хорошие предсказания с точки зрения точности, но её оценка вероятностей быть плохо откалиброванной — то есть, предсказанные вероятности не соответствуют реальной частоте событий.

Во многих задачах (медицина, финансы, риск-менеджмент) важна не только метка класса, но и уверенность модели. Например, предсказать, что событие с вероятностью 0.9 действительно случится примерно в 90% случаев.

Почему возникает несоответствие:
➡️ Используемые функции потерь (например, cross-entropy) и оптимизаторы не гарантируют идеальную калибровку.
➡️ Модели могут быть избыточно уверены (overconfident), особенно глубокие нейросети с ReLU и batch normalization.
➡️ Недостаток данных или несбалансированность классов искажает распределение вероятностей.

Методы исправления

Постобработка:
➡️ Плацинг (Platt Scaling) — логистическая регрессия по выходам модели.
➡️ Изотоническая регрессия — монотонная калибровка.
➡️ Температурное шкалирование (Temperature Scaling) — масштабирование логитов перед softmax.

Встроенные методы:
➡️ Использование бэйесовских моделей или методы, учитывающие неопределённость (например, dropout в режиме теста).
➡️ Обучение с учётом калибровки (calibration-aware loss).

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1065

View MORE
Open in Telegram


Telegram News

Date: |

End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Users are more open to new information on workdays rather than weekends. Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Administrators
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American