Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/ds_interview_lib/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Библиотека собеса по Data Science | вопросы с собеседований@ds_interview_lib P.1059
DS_INTERVIEW_LIB Telegram 1059
🤔 Может ли модель машинного обучения «обмануть» нас, даже если метрики говорят, что всё хорошо

Да — и делает это довольно часто. Модель может демонстрировать отличные метрики, но при этом решать не ту задачу, которую мы ей на самом деле поставили.

Примеры:
1️⃣ Модель для автоматического отбора резюме может использовать косвенные признаки, связанные не с квалификацией, а с демографией — например, местом жительства или формулировками, типичными для определённых групп.

2️⃣ Модель для детекции токсичных комментариев может научиться просто игнорировать сленг или грамматические ошибки, если их нет в тренировке, и при этом «наказывать» культурные диалекты.

3️⃣ Модель детектирует трещины на снимках труб, но в обучающих данных почти все трещины были сфотографированы в солнечную погоду — и модель на самом деле распознаёт освещение, а не дефекты.

Формально — всё отлично: log-loss низкий, ROC-AUC высокий. Но по сути — модель научилась «читерить». Это называют спурием-корреляциями (spurious correlations) и data leakage.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2



tgoop.com/ds_interview_lib/1059
Create:
Last Update:

🤔 Может ли модель машинного обучения «обмануть» нас, даже если метрики говорят, что всё хорошо

Да — и делает это довольно часто. Модель может демонстрировать отличные метрики, но при этом решать не ту задачу, которую мы ей на самом деле поставили.

Примеры:
1️⃣ Модель для автоматического отбора резюме может использовать косвенные признаки, связанные не с квалификацией, а с демографией — например, местом жительства или формулировками, типичными для определённых групп.

2️⃣ Модель для детекции токсичных комментариев может научиться просто игнорировать сленг или грамматические ошибки, если их нет в тренировке, и при этом «наказывать» культурные диалекты.

3️⃣ Модель детектирует трещины на снимках труб, но в обучающих данных почти все трещины были сфотографированы в солнечную погоду — и модель на самом деле распознаёт освещение, а не дефекты.

Формально — всё отлично: log-loss низкий, ROC-AUC высокий. Но по сути — модель научилась «читерить». Это называют спурием-корреляциями (spurious correlations) и data leakage.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1059

View MORE
Open in Telegram


Telegram News

Date: |

2How to set up a Telegram channel? (A step-by-step tutorial) Telegram users themselves will be able to flag and report potentially false content. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. How to build a private or public channel on Telegram?
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American