DS_INTERVIEW_LIB Telegram 1145
💬 Можно ли делать отбор признаков на всём датасете до разделения на train и test

Нет, так делать не рекомендуется. Если отбор признаков выполняется на всём датасете, информация из теста «просачивается» в обучение → возникает data leakage, а итоговые метрики оказываются слишком оптимистичными.

Правильный подход:
➡️ Сначала разделяем данные на train / test (и при необходимости на фолды для кросс-валидации).
➡️ На train выполняем отбор признаков (RFE, фильтры, встроенные методы).
➡️ Обучаем модель на этих же данных.
➡️ Валидируем на validation/test, где признаки выбираются так же через пайплайн.

👌 После кросс-валидации фиксируем пайплайн и переобучаем на всём train, затем оцениваем на hold-out test.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2



tgoop.com/ds_interview_lib/1145
Create:
Last Update:

💬 Можно ли делать отбор признаков на всём датасете до разделения на train и test

Нет, так делать не рекомендуется. Если отбор признаков выполняется на всём датасете, информация из теста «просачивается» в обучение → возникает data leakage, а итоговые метрики оказываются слишком оптимистичными.

Правильный подход:
➡️ Сначала разделяем данные на train / test (и при необходимости на фолды для кросс-валидации).
➡️ На train выполняем отбор признаков (RFE, фильтры, встроенные методы).
➡️ Обучаем модель на этих же данных.
➡️ Валидируем на validation/test, где признаки выбираются так же через пайплайн.

👌 После кросс-валидации фиксируем пайплайн и переобучаем на всём train, затем оцениваем на hold-out test.

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1145

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) How to Create a Private or Public Channel on Telegram? In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Hashtags Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation.
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American