tgoop.com/bdscience_ru/620
Last Update:
📊Небольшие советы по обработке больших датасетов в Pandas от Google
Pandas — отличный инструмент для работы с небольшими наборами данных, обычно размером от двух до трех гигабайт.
Для наборов данных, превышающих этот порог, использование Pandas не рекомендуется. Это связано с тем, что если размер набора данных превышает доступную оперативную память, Pandas загружает полный набор данных в память перед обработкой. Проблемы с памятью могут возникнуть даже с меньшими наборами данных, поскольку предварительная обработка и изменение создают дубликаты DataFrame.
⚠️Вот несколько советов по эффективной обработке данных в Pandas:
✅ Используйте эффективные типы данных: используйте более эффективные с точки зрения памяти типы данных (например, int32вместо int64, float32вместо float64), чтобы сократить использование памяти.
✅Загружать меньше данных: используйте use-colsпараметр для загрузки только необходимых столбцов, что сокращает потребление памяти.pd.read_csv()
✅ Разделение на части: используйте chunksizeпараметр in для чтения набора данных меньшими порциями, обрабатывая каждую порцию итеративно.pd.read_csv()
✅ Оптимизация dtypes Pandas: используйте astypeметод для преобразования столбцов в типы, более эффективно использующие память, после загрузки данных, если это уместно.
✅ Распараллеливание Pandas с помощью Dask: используйте Dask, библиотеку параллельных вычислений, для масштабирования рабочих процессов Pandas до наборов данных, превышающих объем оперативной памяти, за счет использования параллельной обработки.
🖥Подробнее можно узнать тут
BY Big Data Science [RU]
Share with your friend now:
tgoop.com/bdscience_ru/620