DS_INTERVIEW_LIB Telegram 1148
🦾 Что делать, если датасет очень маленький — как правильно использовать k-fold кросс-валидацию

Кросс-валидация особенно полезна в условиях дефицита данных, так как позволяет максимально использовать выборку. Но при очень маленьком датасете есть нюансы:

1️⃣ Leave-One-Out (LOOCV)
Когда данных меньше ~100, часто используют leave-one-out. В этом случае на каждом шаге модель обучается на всех объектах, кроме одного, а этот единственный объект идёт в тест. Так данные используются максимально, но метрика может иметь высокую дисперсию.

2️⃣ Риск переобучения на фолды
При многократной настройке гиперпараметров под одни и те же фолды легко подстроиться под шум или особенности отдельных примеров. Поэтому, если возможно, держите отдельный hold-out набор.

3️⃣ Высокая чувствительность к отдельным объектам
В малых данных каждый пример сильно влияет на метрику. Один выброс может кардинально исказить результат. Чтобы снизить случайные колебания, иногда повторяют кросс-валидацию с разными сидами и усредняют метрики.

Практические советы:
🚩 По возможности собрать больше данных.
🚩 Использовать осмысленное data augmentation (для картинок, текста, звука).
🚩 Включать знания предметной области (например, ограничения на модель).
🚩 Рассматривать байесовские методы, которые могут учитывать априорные знания.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21



tgoop.com/ds_interview_lib/1148
Create:
Last Update:

🦾 Что делать, если датасет очень маленький — как правильно использовать k-fold кросс-валидацию

Кросс-валидация особенно полезна в условиях дефицита данных, так как позволяет максимально использовать выборку. Но при очень маленьком датасете есть нюансы:

1️⃣ Leave-One-Out (LOOCV)
Когда данных меньше ~100, часто используют leave-one-out. В этом случае на каждом шаге модель обучается на всех объектах, кроме одного, а этот единственный объект идёт в тест. Так данные используются максимально, но метрика может иметь высокую дисперсию.

2️⃣ Риск переобучения на фолды
При многократной настройке гиперпараметров под одни и те же фолды легко подстроиться под шум или особенности отдельных примеров. Поэтому, если возможно, держите отдельный hold-out набор.

3️⃣ Высокая чувствительность к отдельным объектам
В малых данных каждый пример сильно влияет на метрику. Один выброс может кардинально исказить результат. Чтобы снизить случайные колебания, иногда повторяют кросс-валидацию с разными сидами и усредняют метрики.

Практические советы:
🚩 По возможности собрать больше данных.
🚩 Использовать осмысленное data augmentation (для картинок, текста, звука).
🚩 Включать знания предметной области (например, ограничения на модель).
🚩 Рассматривать байесовские методы, которые могут учитывать априорные знания.

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1148

View MORE
Open in Telegram


Telegram News

Date: |

More>> 3How to create a Telegram channel? 4How to customize a Telegram channel? Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. best-secure-messaging-apps-shutterstock-1892950018.jpg
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American