🔗 DataChain — фреймворк для управления даннымиКлючевые особенности
фреймворка:
📂 Мультимодальная версионность данных🔘Версионирование неструктурированных данных без перемещения или копирования, с поддержкой ссылок на хранилища S3, GCP, Azure и локальные файловые системы.
🔘Поддержка мультимодальных данных: изображения, видео, текст, PDF, JSON, CSV, Parquet и др.
🔘Объединение файлов и метаданных в постоянные, версионные наборы данных.
🐍 Python-friendly🔘Работа с объектами Python и их полями: числовые значения, строки, матрицы, ответы LLM.
🔘Обработка больших наборов данных (до терабайтов) с встроенной параллелизацией и экономным использованием памяти — без необходимости SQL или Spark.
🧠 Обработка данных🔘Генерация метаданных с использованием локальных AI-моделей и LLM API.
🔘Фильтрация, объединение и группировка наборов данных по метаданным. Поиск по векторным эмбеддингам.
🔘Высокопроизводительные векторизированные операции на Python-объектах: суммирование, подсчёт, вычисление среднего и др.
🔘Передача наборов данных в Pytorch и Tensorflow или экспорт обратно в хранилище.