BEGTIN Telegram 6546
В ответ на список любви к CSV формату, я напишу свои 5 пунктов в пользу формата данных Parquet:

1. Parquet гораздо компактнее CSV и других форматов которые в него преобразуют, даже если они сжаты. Колоночное сжатие в Parquet работает гораздо эффективнее и это особенно ярко ощущается на денормализованных данных, например, статпоказателях в формате плоских файлов в режиме "1 строка=1 значение".
2. Parquet позволяет работать с данными как с базами данных позволяя на недорогих устройствах работать с данными большого объёма и быстро выполнять аналитические запросы.
3. Parquet имеет строгую схему описания и хорошую типизацию полей, а большая часть инструментов по работе с ним умеют определять типы данных динамически при создании Parquet файлов.
4. Parquet может иметь вложенные объекты в отличие от CSV файлов в Parquet есть возможность хранить структурированные вложенные объекты и Parquet файлы могут создаваться на базе JSON / NDJSON / JSON lines файлов
5. Все современные аналитические инструменты работы с данными умеют работать с этим форматом это Pandas, Polars, Clickhouse, DuckDB и многие другие. Новые инструменты появляются ежегодно и работают всё более производительно.

#data #dataformats #csv #parquet



tgoop.com/begtin/6546
Create:
Last Update:

В ответ на список любви к CSV формату, я напишу свои 5 пунктов в пользу формата данных Parquet:

1. Parquet гораздо компактнее CSV и других форматов которые в него преобразуют, даже если они сжаты. Колоночное сжатие в Parquet работает гораздо эффективнее и это особенно ярко ощущается на денормализованных данных, например, статпоказателях в формате плоских файлов в режиме "1 строка=1 значение".
2. Parquet позволяет работать с данными как с базами данных позволяя на недорогих устройствах работать с данными большого объёма и быстро выполнять аналитические запросы.
3. Parquet имеет строгую схему описания и хорошую типизацию полей, а большая часть инструментов по работе с ним умеют определять типы данных динамически при создании Parquet файлов.
4. Parquet может иметь вложенные объекты в отличие от CSV файлов в Parquet есть возможность хранить структурированные вложенные объекты и Parquet файлы могут создаваться на базе JSON / NDJSON / JSON lines файлов
5. Все современные аналитические инструменты работы с данными умеют работать с этим форматом это Pandas, Polars, Clickhouse, DuckDB и многие другие. Новые инструменты появляются ежегодно и работают всё более производительно.

#data #dataformats #csv #parquet

BY Ivan Begtin


Share with your friend now:
tgoop.com/begtin/6546

View MORE
Open in Telegram


Telegram News

Date: |

Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months. In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. Telegram users themselves will be able to flag and report potentially false content. How to Create a Private or Public Channel on Telegram? Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members.
from us


Telegram Ivan Begtin
FROM American