DS_INTERVIEW_LIB Telegram 1166
☹️ Какие подводные камни и edge-cases встречаются при применении PCA

➡️ Масштабирование признаков — если признаки измеряются в разных единицах и имеют сильно разные масштабы, то компоненты будут доминироваться признаками с высокой дисперсией. Обычно перед PCA данные стандартизируют (mean=0, std=1).

➡️ Линейность метода — PCA работает только с линейными зависимостями. Если данные имеют нелинейную структуру (например, лежат на многообразии), то PCA не уловит её. В таких случаях применяют kernel PCA или manifold learning.

➡️ Интерпретация компонент — хотя PCA и несупервизированный метод, часто возникает соблазн приписывать главным компонентам слишком явный смысл. На деле они могут быть трудны для интерпретации.

➡️ Мало наблюдений — если выборка меньше размерности (N < D), матрица ковариации может оказаться вырожденной. Лучше использовать SVD-реализацию PCA, которая стабильнее.

➡️ Выбор числа компонент — нет универсального правила. Иногда используют порог по объяснённой дисперсии (например, 95%), иногда руководствуются доменной экспертизой или CV на супервизированной задаче.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2



tgoop.com/ds_interview_lib/1166
Create:
Last Update:

☹️ Какие подводные камни и edge-cases встречаются при применении PCA

➡️ Масштабирование признаков — если признаки измеряются в разных единицах и имеют сильно разные масштабы, то компоненты будут доминироваться признаками с высокой дисперсией. Обычно перед PCA данные стандартизируют (mean=0, std=1).

➡️ Линейность метода — PCA работает только с линейными зависимостями. Если данные имеют нелинейную структуру (например, лежат на многообразии), то PCA не уловит её. В таких случаях применяют kernel PCA или manifold learning.

➡️ Интерпретация компонент — хотя PCA и несупервизированный метод, часто возникает соблазн приписывать главным компонентам слишком явный смысл. На деле они могут быть трудны для интерпретации.

➡️ Мало наблюдений — если выборка меньше размерности (N < D), матрица ковариации может оказаться вырожденной. Лучше использовать SVD-реализацию PCA, которая стабильнее.

➡️ Выбор числа компонент — нет универсального правила. Иногда используют порог по объяснённой дисперсии (например, 95%), иногда руководствуются доменной экспертизой или CV на супервизированной задаче.

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1166

View MORE
Open in Telegram


Telegram News

Date: |

With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American