💬 Можно ли делать отбор признаков на всём датасете до разделения на train и test
Нет, так делать не рекомендуется. Если отбор признаков выполняется на всём датасете, информация из теста «просачивается» в обучение → возникает data leakage, а итоговые метрики оказываются слишком оптимистичными.
Правильный подход: ➡️ Сначала разделяем данные на train / test (и при необходимости на фолды для кросс-валидации). ➡️ На train выполняем отбор признаков (RFE, фильтры, встроенные методы). ➡️ Обучаем модель на этих же данных. ➡️ Валидируем на validation/test, где признаки выбираются так же через пайплайн.
👌 После кросс-валидации фиксируем пайплайн и переобучаем на всём train, затем оцениваем на hold-out test.
💬 Можно ли делать отбор признаков на всём датасете до разделения на train и test
Нет, так делать не рекомендуется. Если отбор признаков выполняется на всём датасете, информация из теста «просачивается» в обучение → возникает data leakage, а итоговые метрики оказываются слишком оптимистичными.
Правильный подход: ➡️ Сначала разделяем данные на train / test (и при необходимости на фолды для кросс-валидации). ➡️ На train выполняем отбор признаков (RFE, фильтры, встроенные методы). ➡️ Обучаем модель на этих же данных. ➡️ Валидируем на validation/test, где признаки выбираются так же через пайплайн.
👌 После кросс-валидации фиксируем пайплайн и переобучаем на всём train, затем оцениваем на hold-out test.
How to create a business channel on Telegram? (Tutorial) How to Create a Private or Public Channel on Telegram? In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Hashtags Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation.
from us