DS_INTERVIEW_LIB Telegram 1130
🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️ Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1



tgoop.com/ds_interview_lib/1130
Create:
Last Update:

🤓 Если миноритарный класс не только меньше, но и более разнообразный, поможет ли oversampling

Да, но с оговорками. При высокой вариативности миноритарного класса наивный SMOTE может создавать нереалистичные объекты, смешивая разные подгруппы класса. Это искажает распределение и снижает качество модели.

➡️ Что можно сделать:

Использовать кластеризованный oversampling: сначала разбить миноритарные объекты на кластеры (например, k-means), а затем проводить генерацию внутри каждого кластера. Так вы сохраните локальные структуры.

Рассмотреть более продвинутые методы синтетической генерации данных, чтобы адекватно отразить разнообразие миноритарного класса.

😂 P.S. SMOTE, конечно, молодец, но если хочется чуть более осмысленного «синтетического интеллекта»:
AI-агенты для DS-специалистов (тут данные генерить не придётся — агенты сами помогут)
ML для старта в Data Science (для тех, кто ещё путает oversampling с оверсайзом)

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1130

View MORE
Open in Telegram


Telegram News

Date: |

Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Click “Save” ; Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. To view your bio, click the Menu icon and select “View channel info.”
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American